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何方 式 复制 或 抄袭 本 书 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 


机 器 学 习 是 近年 来 的 热门 技术 话题 ，R 语言 是 处 理 其 
习 和 及 语言 的 坚实 算法 基础 和 业务 基础 ， 内 容 包括 机 器 学 习 基 本 概念 、 线 性 
析 、 线 性 模型 的 高 级 特征 选择 、K 最 近邻 和 支持 向 量 机 等 ， 力 

本 书 适合 想 理解 和 表述 机 器 学 习 算 法 的 工人 士 、 想 在 分 析 中 发 挥 民 强大 威力 的 统计 学 专家 
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不 得 以 任 


[ 具 。 本 书 为 读者 提供 机 器 学 
归 、 逻 辑 斯 蒂 
平衡 实践 中 的 技术 和 理论 两 方面 。 


和 判别 分 


。 即 使 是 


了 路 


前 


“应 该 给 人 第 二 次 机 会 ， 但 一 定 要 留 个 心眼 儿 。” 
一 约翰 书 恩 


人 生 中 ， 能 得 到 第 二 次 机 会 可 不 常见 。 我 还 记得 完成 本 书 第 1 版 的 编辑 工作 之 后 ， 我 不 停 地 
问 自己 :“ 为 什么 不 ……? ”或 者 “我 都 写 了 些 什么 东西 啊 ? ”实际 上 ,本 书 第 1 版 出 版 之 后 , 我 
做 的 第 一 个 项 目 没 有 使 用 书 中 的 任何 一 种 方法 。 我 暗 下 决心 ， 如 果 还 有 机 会 ， 一 定 要 在 第 2 版 中 


介绍 这 些 方法 。 


当 我 开始 写作 第 1 版 时 ， 目 标 是 做 出 点 不 一 样 的 东西 ， 在 介绍 各 种 机 器 学 习 方法 的 同时 ， 还 
要 使 内 容 喜 闻 乐 见 。 收 到 所 有 反馈 之 后 ,我 认为 自己 实现 了 这 个 目标 。 但 事物 总 是 不 完美 的 ， 而 
且 ， 如 果 你 想 满足 所 有 人 的 需要 , 那 最 终 谁 都 满足 不 了 。 我 想起 了 自己 最 喜欢 的 那 句 腓 特 烈 大 帝 
的 名 言 :“ 诸 事 丝 辜 精 竭 虑 者 , 终 将 一 无 所 成 。a” 所 以 , 我 并 非 一 味 求全 ， 而 是 提供 足够 的 技能 
工具 , 来 使 读者 尽量 轻松 愉快 地 学 习 R 语 言 和 机 带 学 习 。 在 第 1 版 的 基础 之 上 , 我 又 添加 了 一 些 非 
常 有 趣 的 新 技术 。 总 会 有 一 些 批评 者 抱怨 这 本 书 没 有 提供 足够 的 数学 知识 , 或 是 缺少 某 些 方面 的 
内 容 。 我 对 这 些 意 见 的 回答 是 : 它们 已 经 存在 ! 为 什么 因为 有 人 抱怨 就 要 重复 那些 已 经 有 人 做 了 ， 
并 且 做 得 非常 好 的 事情 呢 ? 再 次 声明 , 我 要 写 出 一 些 与 众 不 同 的 东西 , 一 些 能 够 抓 住 读 者 眼球 并 
能 使 他 们 在 这 个 充满 竞争 的 领域 取得 成 功 的 东西 。 


给 出 第 2 版 每 章 内 容 的 修改 (或 改进 ) 之 前 ,我 先 解释 一 下 第 2 版 总 体 上 的 变化 。 第 一 个 总 体 
变化 就 是 ， 我 放弃 了 一 直 使 用 = 作为 赋值 操作 符 〈 而 不 是 使 用 <- ) 的 努力 。 当 我 越 来 越 多 地 与 
他 人 分 享 代码 时 ， 我 意识 到 再 也 不 能 使 用 =， 而 应 该 使 用 <- 了 。 签 下 第 2 版 合约 之 后 ， 我 做 的 第 
一 件 事 就 是 逐 行 检查 代码 ,将 = 修改 为 <-。 第 ?版 更 重要 的 一 个 改变 是 ， 代 码 更 加 整洁 和 标准 
化 ， 这 对 于 与 合作 者 和 管理 者 ( 她 我 直言 ) 分 享 代 码 也 非常 重要 。 使 用 版 本 较 新 的 RStudio 可 以 
非常 方便 地 实现 代码 标准 化 , 写 出 的 代码 真是 太 标准 了 ! 嗯 , 首先 就 是 要 为 代码 加 上 合适 的 空格 。 
举例 来 说 , 以 前 我 会 不 假 思 索 地 写 出 c(1,2,3,4,5,6) 这 样 的 代码 , 连 一 个 空格 都 懒得 加 。 现在 ， 
我 会 写成 c(1，2，3，4，5，6) ， 每 个 逗号 后 面 都 加 一 个 空格 ， 这 样 代 码 就 会 更 加 易 读 。 如 果 
你 还 想 了 解 更 多 代码 标准 ， 可 以 参见 谷歌 的 R 代 码 风 格 指南 https://google.github.io/styleguide/ 
Reguide.xml/。 




























































































































































































我 还 收 到 了 一 些 电子 邮件 , 说 我 在 网 上 获取 的 部 分 数据 已 经 不 存在 了 。 国家 冰球 联盟 已 经 决 
定 使 用 一 套 全 新 的 统计 方法 , 所 以 我 必须 从 头 开 始 , 重新 做 一 遍 那 个 例子 。 为 了 解决 类 似 的 问题 ， 
我 把 数据 放 到 了 GitHub 上 。 


总 而 言 之 ， 为 了 给 大 家 提供 最 好 的 工具 , 我 尽 了 相当 大 的 努力 。 另 外 ,企业 家 马克 库 班 此 
前 的 一 些 评论 在 网 络 上 引起 了 非常 大 的 反响 : 


























口 “ 人 工 智 能 、 深 度 学 习 、 机 器 学 习 一 一 如 果 你 还 不 懂 这 些 知 识 ， 那 么 一 定 要 学 习 一 下 ， 不 
管 你 是 做 什么 的 。 否 则 在 3 年 之 内 ， 你 就 跟 轴 龙 差不多 了 。” 

口 “我 个 人 认为 ， 在 未 来 10 年 内 ， 对 文科 专业 人 才 的 需求 要 超过 对 编程 专业 甚至 工程 专业 人 
才 的 需求 。 因 为 当 所 有 数据 都 呈现 在 面前 时 ， 我 们 就 面临 多 种 选择 ， 这 就 需要 以 不 同 的 
视角 来 看 待 数据 ， 以 便 得 到 各 种 不 同 的 数据 视图 。 所 以 需要 更 多 思维 更 加 开放 的 人 才 。” 


这 两 条 评论 除了 在 博客 圈 内 有 一 些 交集 之 外 , 乍 看 上 去 彼此 之 间 没 有 什么 联系 。 但 是 仔细 想 
一 下 , 我 认为 他 触 到 了 我 觉得 自己 应 该 写 这 本 书 的 痛 点 。 我 坚信 机 器 学 习 在 某 种 程度 上 应 该 造福 
于 大 众 。 随 着 计算 能 力 和 信息 可 用 性 的 不 断 提 高 ,机 器 学 习 对 于 所 有 人 来 说 都 将 是 一 种 司空 见 惯 
的 事情 。 但 从 另 一 方面 看 ， 机 器 学 习 还 有 一 个 问题 ， 这 个 问题 在 现在 和 将 来 都 会 存在 ， 那 就 是 对 
结果 的 解释 。 如 果 你 努力 描述 真 阳 性 率 和 假 阳 性 率 时 ， 对 方 一 脸 茫然 ,你 应 该 怎么 办 ”你 怎样 才 
能 通过 讲 故事 迅速 启发 听众 ? 如 果 你 做 不 到 ， 请 通知 我 ， 我 非常 愿意 与 你 一 起 分 享 我 的 故事 。 


必须 有 人 带头 来 做 这 些 事情 , 并 以 此 影响 自己 所 在 的 组 织 。 如 果 一 个 具有 历史 学 或 音乐 鉴赏 
学 位 的 人 想 做 这 些 事 , 那 就 让 他 做 吧 。 我 每 天 都 学 习 历 史 ， 它 对 我 帮助 巨大 。 库 班 的 评论 从 多 个 
方面 使 我 更 加 确信 , 本 书 第 1 章 最 重要 。 如 果 你 还 没有 向 商业 伙伴 提出 这 个 问题 :“ 你 想 做 些 什 么 
不 一 样 的 事情 ? ”那么 最 好 明天 就 去 问 。 有 太 多 人 将 太 多 努力 花费 在 那些 和 组 织 及 其 决策 完全 无 
关 的 分 析 上 。 































































































本 书 内 容 
下 面 按 章节 给 出 本 书 对 第 1 版 做 出 的 修改 。 
第 1 章 重新 制作 了 流程 图 ， 更 正 了 一 个 无 意 中 的 输入 错误 ， 并 新 增 了 一 些 方法 。 
第 2 章 改 进 了 代码 ， 并 给 出 了 更 美观 的 图 表 ， 此 外 基本 与 第 1 版 一 致 。 


第 3 章 改 善 并 精简 了 代码 。 增 加 了 多 元 自 适 应 回归 样 条 模型 ， 这 是 我 最 喜欢 的 技术 之 一 ， 它 
的 效果 非常 好 , 可 以 处 理 非 线性 问题 , 而 且 易 于 解释 。 我 将 它 作为 基础 模型 , 将 其 他 模型 作为 “ 挑 
战 者 "， 看 看 其 他 模型 能 否 在 性 能 上 超过 样 条 模型 。 


第 4 章 不 但 介绍 了 回归 模型 中 的 特征 选择 技术 ， 还 包括 了 分 类 模型 中 的 特征 选择 技术 。 
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(We 








第 5 章 梳理 并 精简 了 代码 。 
6 章 增加 了 XGBOOST 扩 展 包 提 供 的 流行 技术 ， 还 增加 了 使 用 随机 森林 作为 特征 选择 工具 














第 7 章 更 新 了 一 些 深 度 学 习 方法 的 信息 ， 并 改进 了 使 用 H2O 软 件 包 的 代码 ， 包 括 超 参数 搜索 





新 增 了 使 用 随机 森林 进行 无 监督 学 习 的 方法 。 
使 用 了 新 的 数据 集 ， 新 增 了 样本 外 预测 的 方法 。 
10 章 新 增 了 序列 分 析 方 法 ， 我 发 现 这 种 方法 越 来 越 重要 ， 特 别 是 在 营销 领域 。 
章 属于 全 新 内 容 , 使 用 了 若干 个 非常 棒 的 软件 包 。 

第 12 章 添加 了 另外 几 年 的 气候 数据 ， 以 及 对 几 种 不 同 因果 关系 测试 方法 的 演示 。 
13 章 埠 


如 














兽 加 了 数据 ， 改 进 了 代码 。 
第 14 章 也 是 新 内 容 ， 帮 助 你 在 云 上 简单 而 又 快速 地 获取 R。 
附录 增加 了 新 的 数据 处 理 方法 。 











准备 工作 
R 是 免费 的 开源 软件 ， 你 只 需 从 https:/www.r-project.org/ 下 载 并 安装 即 可 。 我 强烈 建议 你 从 
https:/www.rstudio.com/products/RStudio/ 下 载 IDE 和 RStudio， 当 然 ， 这 一 步 不 是 必需 的 。 























目标 读者 


本 书 的 目标 读者 是 数据 科学 家 、 数 据 分 析 师 等 专业 人 员 。 如 果 你 具有 使 用 R 进 行 机 器 学 习 的 
工作 经 验 ， 又 想 提高 能 力 以 成 为 机 器 学 习 领 域 的 专家 ， 那 么 本 书 也 非常 适合 你 。 


























排版 约定 
本 书 以 不 同文 本 样式 区 分 不 同 种 类 的 信息 ， 下 面 列 出 并 解释 几 种 样式 示例 。 


文本 中 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、 虚 拟 URL 、 用 户 输 
入 和 Twitter 用 户 定位 都 表示 为 :“ 可 以 在 R 的 MASS 包 中 找到 该 数据 框 ， 名 为 biopsy。?” 














所 有 命令 行 输入 和 输出 都 表示 为 : 


IC="CV", 


> bestglm(Xy = biopsy.cv, 
K=10, 


CVvArgs=list (Method="HTF", 
REP=1), family=binomial) 


新 名 词 和 重点 词 会 以 楷体 表示 。 显 示 器 屏幕 ( 比如 菜单 或 对 话 框 ) 上 的 词 在 文本 中 表示 为 : 
“如 果 想 下 载 新 模块 ， 我 们 可 以 使 用 Files|Settings|Project Name|Project Interpreter。” 


个 警告 或 重要 的 注意 事项 。 
ei 提示 或 小 技巧 。 


读者 反馈 








欢迎 各 位 提出 宝贵 意见 ,请 让 我 们 知道 你 对 本 书 的 看 法 一 一 喜欢 什么 或 者 不 喜欢 什么 。 读 者 
反馈 对 我 们 非常 重要 ， 因 为 这 可 以 帮助 我 们 发 现 对 大 家 最 有 帮助 的 主题 。 


要 想 提 供 反 馈 ， 只 需 登 录 “ 图 灵 社 区 ”本 书页 面 (http://www.ituring.com.cn/book/1989 ) 并 


0 








二 
田 


ll 


客户 支持 
如 果 您 购买 了 我 们 出 版 的 图 书 ， 我 们 将 提供 一 系列 服务 来 使 您 获得 最 大 收益 。 


下 载 示 例 代码 
你 可 以 从 “图 灵 社 区 ”本 书页 面 (http:/www.ituring.com.cn/book/1989 ) 下 载 书 中 示例 代码 。 











文件 下 载 结束 之 后 ， 请 确定 使 用 以 下 软件 的 最 新 版 本 解压 或 提取 文件 : 


口 Windows 系 统 : 使 用 WinRAR 或 7-Zip 

口 Mac 系 统 : 使 用 Zipeg、iZip 或 UnRarX 

口 Linux 系 统 : 使 用 7-Zip 或 PeaZip 

本 书 的 代码 包 也 保存 在 GitHub 上 : https://github.com/PacktPublishing/Mastering-Machine-learning 
FE 富 的 图 


with-R-Second-Edition。https:/Wgithub.com/PacktPublishing/， 这 个 地 址 还 提供 了 其 他 种 类 丰 
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书 和 视频 资料 相关 代码 包 ， 好 好 看 一 下 吧 ! 


勘误 

尽管 我 们 做 了 各 种 努力 来 保证 内 容 的 准确 性 ,依然 无 法 避免 出 现 错误 。 如 果 你 在 书 中 发 现 
文字 或 代码 错误 并 告知 我 们 ， 我 们 将 非常 感谢 。 通 过 勘误 ， 有 助 提高 其 他 读者 的 阅读 体验 ， 并 
帮助 我 们 在 本 书 的 后 续 版 本 中 做 出 改进 。 不 管 您 发 现 什么 错误 ， 都 可 以 通过 “图 灵 社 区 ”本 书 
页 面 (http:/www.ituring.com.cn/book/1989 ) 告诉 我 们 。 一 旦 勘误 通过 确认 ， 将 显示 在 页 面 上 
的 勘误 表 中 。 
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反 盗 版 


互联 网 上 针对 有 版 权 资料 的 盗版 行为 一 直 存 在 , 并 逐步 扩展 到 所 有 媒体 。 出 版 社 非常 重视 对 
己 版 权 和 许可 的 保护 , 如 果 您 在 互联 网 上 发 现 对 于 我 们 工作 的 任何 形式 的 非法 复制 行为 , 请 立 
即将 地 址 或 网 站 名 通知 我 们 ， 我 们 会 采取 对 策 。 


请 联系 ebook@turingbook.com 并 提供 有 盗版 嫌疑 的 链接 。 
如 果 我 们 在 作者 保护 和 造福 读者 方面 得 到 您 的 帮助 ， 我 们 将 非常 感谢 。 
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问题 


对 本 书 有 任何 疑问 , 都 可 以 登录 “图 灵 社 区 ”本 书页 面 ( http:/www.ituring.com.cn/book/1989 )， 
我 们 会 尽 最 大 努力 解决 问题 。 








电子 书 
如 需 购买 本 书 电子 版 ， 请 扫描 以 下 二 维 码 。 





第 1 版 前 言 


“ 诸 事 蕴 璋 精 竭 虑 者 ， 终 将 一 无 所 成 。” 
一 一 腓 特 烈 大 帝 


机 器 学 习 领 域 浩瀚 无 边 , 下 面 的 引言 对 此 进行 了 很 好 的 概括 : 你 面临 的 第 一 个 问题 就 是 令 人 
眼花 练 乱 的 学 习 算 法 , 到底 要 用 哪 一 个 ? 现在 已 经 有 几 千 种 算法 , 每 年 还 会 发 布 几 百 种 新 的 算法 
(Pedro Domingo，2012 )。 如 果 要 在 正文 中 尝试 涵盖 所 有 算法 ， 那 就 是 不 负责 任 了 。 因 为 按照 腓 
寺 烈 大 帝 的 意思 ， 我 们 将 一 事 无 成 。 


请 牢记 这 个 信条 。 本 书目 的 就 是 为 你 在 算法 和 业务 方面 打下 坚实 的 基础 , 这 会 消除 你 的 困惑 ， 
最 重要 的 是 ,要 使 你 充满 信心 地 面 对 每 一 项 机 器 学 习 任务 ,并 且 理 解 其 他 算法 和 主题 。 如 果 这 本 
书 对 你 的 自我 提升 有 明显 帮助 , 那 我 认为 这 就 是 胜利 。 不 要 把 本 书 当 作 一 个 目标 ， 而 要 把 它 当 作 
自我 发 现 的 途径 。 


R 的 世界 同 机 器 学 习 一 样 令 人 不 知 所 措 ,，R 支 持 社区 提供 了 多 如 牛 毛 的 R 包 、 博 客 、 网 站 、 讨 
论 组 以 及 水 平 各 异 的 论文 。 这 是 很 好 的 信息 积累 ， 并 可 能 是 R 的 最 大 优势 。 但 我 一 直 坚 信 ， 一 个 
实体 的 最 大 优势 也 是 其 最 大 劣势 。R 庞 大 的 知识 社区 可 以 轻易 地 使 人 无 所 适 从 或 步 人 牙 途 。 给 我 
一 个 问题 和 10 名 了 程序 员 ， 会 得 到 解决 这 个 问题 的 10 种 不 同 的 代码 编写 方式 。 我 在 每 一 章 都 会 尽 
力 找到 使 用 R 进 行 数据 理解 、 数 据 准 备 和 数据 建 模 的 关键 要 素 。 我 绝对 算 不 上 是 R 编 程 专家 ， 但 
要 再 次 强调 ， 我 会 从 打 好 地 基 开 始 。 


燃 起 我 写 这 本 书 的 热情 的 另 一 个 原因 , 是 几 年 前 发 生 的 一 件 事 。 我 的 团队 中 有 一 个 负责 数据 
库 管理 的 IT 合同 工 。 当 时 ,我 们 一 边 走 一 边 聊 着 大 数据 之 类 的 话题 ， 他 说 他 买 了 两 本 书 ， 一 本 关 
于 使 用 R 进 行 机 器 学 习 ， 另 一 本 则 使 用 的 是 Python。 他 称 自己 可 以 完成 所 有 编程 工作 ， 但 是 完全 
不 懂 其 中 的 统计 学 知识 。 写 作 本 书 的 过 程 中 ,这 场 谈 话 一 直 莹 绕 在 我 的 脑海 里 。 技 术 、 理 论 与 实 
践 的 平衡 一 直 是 一 项 有 挑战 性 的 工作 。 肯定 有 人 可 以 将 每 章 中 的 理论 单独 写 一 本 书 ,或许 已 经 有 
人 做 到 了 。 我 用 一 种 揭 强 称 得 上 是 局 发 式 的 方法 来 判断 一 个 公式 或 一 项 技术 是 否 有 用 ， 比 如 对 我 
或 读者 在 与 团队 成 员 或 公司 老板 讨论 时 有 所 帮助 。 如 果 我 认为 有 用 ， 就 会 尽力 提供 必要 的 细节 。 


我 特意 对 实际 使 用 的 数据 集 做 了 处 理 , 使 它们 的 规模 既 大 到 足以 使 用 ,又 小 到 足以 获取 知识 
而 不 至 于 迷失 。 本 书 不 是 关于 大 数据 的 , 但 没关系 , 书 中 讲 到 的 方法 和 概念 完全 可 以 扩展 到 大 数 
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据 方 面 。 


简 言 之 ,本 书 对 很 多 人 群 都 具有 意义 ,不 论 是 试图 理解 和 表述 机 器 学 习 算 法 的 IT 精英 ， 还 是 
想 在 分 析 中 发 挥 R 的 强大 威力 的 统计 学 大 师 。 尽 管 有 些 人 同时 精通 IT 技术 和 统计 学 ， 但 他 们 在 本 
书 中 仍然 可 以 发 现 一 些 有 用 的 究 门 和 技巧 。 


定义 机 器 学 习 
机 器 学 习 已 经 无 处 不 在 ! 它 可 以 用 于 网 页 搜索 、 垃 圾 邮件 过 滤 、 推 荐 引擎 、 医 疗 诊断 、 广 千 
投放 、 炊 诈 检测 、 信 用 评分 ,其 至 会 用 在 自动 驾驶 汽车 上 。 公 路 已 经 相当 危险 了 ， 人 工 智能 汽车 


每 跑 100 英 里 ( 约 160 千 米 ) 就 要 用 CTRL+ALT+DEL 来 重启 ， 它 们 在 高 速 公 路 和 辅路 上 漫 无 目的 
地 行驶 ， 想 想 就 令 人 害怕 。 好 吧 ， 我 跑题 了 。 


恰当 地 定义 我 们 正在 讨论 的 事物 一 直 都 很 重要 , 机 器 学 习 也 不 例外 。Machinelearningmastery. 
com 这 个 网 站 用 了 一 整 页 来 讨论 这 个 问题 ， 并 提供 了 很 好 的 背景 资料 。 它 提供 了 一 个 简洁 的 、 可 
接受 的 、 可 操作 的 定义 ， 只 有 一 句 话 :“ 机 器 学 习 是 使 用 数据 对 模型 进行 的 训练 ， 它 针对 某 种 性 
能 指标 形成 决策 。 

请 记 住 这 个 定义 。 为 进行 机 器 学 习 ， 我们 会 有 几 个 要 求 : 第 一 ， 需 要 数据 ; 第 二 ， 确 实 存 在 
一 个 模式 ,也 就 是 说 , 通过 训练 数据 中 的 已 知 输入 值 ， 可 以 基于 没有 用 于 训练 模型 的 数据 做 预测 
或 决策 ， 这 就 是 机 器 学 习 中 的 泛 化 ; 第 三 ， 需 要 某 种 性 能 指标 ， 以 衡量 学 习 / 泛 化 的 结果 ， 比 如 
均 方 误差 、 精 确 度 或 其 他 指标 。 本 书 会 介绍 几 种 性 能 指标 。 


在 机 带 学 习 的 世界 中 , 我 发 现 的 趣事 之 一 就 是 描述 数据 和 流程 的 语言 的 变化 。 说 到 这 儿 , 我 
忍 不 住 要 引用 哲学 家 乔治 . 卡 林 的 一 段 话 : 


“ 没 人 告诉 过 我 这 件 事 ， 也 没 人 问 我 是 否 同意 ， 它 就 这 么 发 生 了 。 刚 纸 变 成 了 卫生 
纸 ,， 股 鞋 变 成 了 跑步 鞋 ， 假牙 变 成 了 牙齿 矫正 器 ， 吃 药 变 成 了 药物 治疗 ,问讯 处 变 成 了 
查 号 服务 ， 垃 圾 场 变 成 了 填 埋 地 ， 撞 车 变 成 了 交通 事故 ， 局 部 多 云 变 成 了 局 部 上 晴朗， 汽 
车 旅馆 变 成 了 汽车 客栈 ， 房 车 变 成 了 活动 房屋 ， 二 手 车 变 成 了 曾 被 拥有 的 运输 工具 ， 窜 
房 服务 变 成 了 客房 餐饮 ， 便 秘 变 成 了 偶发 性 不 规律 。 
































































































































乔治 . 卡 林 ， 哲 学 家 、 喜 剧 演员 
当 我 初 人 机 器 学 习 殿 党 时, 使 用 的 是 有 因 变 量 和 自 变量 的 数据 集 ， 建立 模型 的 目标 是 找到 最 
佳 拟 合 。 现 在 呢 ? 我 要 对 实例 和 输入 特征 做 标记 ， 然 后 进一步 选择 加 工 ， 最 后 生成 用 以 学 习 模 型 
的 特征 空间 。 当 这 一 切 都 完成 之 后 ， 以 前 我 要 做 的 是 查看 模型 参数 ， 而 现在 要 检查 权重 。 
我 要 告诉 你 ,我 会 交替 使 用 这 些 新 旧名 词 ， 以 后 也 会 一 直 这 样 。 机 器 学 习 的 纯粹 主义 者 可 能 
会 因此 而 诅咒 我 ， 但 我 不 认为 这 样 会 造成 什么 严重 的 问题 。 












































机 器 学 习 注意 事项 
在 我 们 开启 香 棕 ,从 此 高 枕 无 忧 地 认为 机 器 学 习 会 解决 所 有 社会 问题 之 前 , 还 有 一 些 相当 重 

















要 的 事情 一 一 注意 事项 。 在 实际 工作 中 ， 要 时 刻 将 其 记 在 心间 ， 前 事 不 忘 ， 后 事 之 师 。 
失败 的 特征 工程 

















仅 靠 堆砌 数据 来 解决 问题 是 不 够 的 ,不 管 数 据 量 有 多 大 。 这 显而易见 ， 我 有 过 杀身 经 历 ， 也 
见 过 其 他 人 步 人 这 个 误区 。 商 业 领 袖 们 天 真 地 认为 ， 只 要 提供 巨 量 原始 数据 ， 再 加 上 机 器 学 习 应 
有 的 魔力 ， 就 能 解决 一 切 问 题 。 我 之 所 以 在 第 1 章 重点 前 述 如 何 限定 业务 问题 和 领导 期 望 ， 以 上 
就 是 原因 之 一 。 


除非 数据 来 自 于 精心 设计 的 实验 , 或 者 已 经 进行 了 预 处 理 , 否则 原始 观测 数据 几乎 不 可 能 
接 用 来 建 模 。 在 任何 一 个 项 目 中 , 实际 花 在 建 模 上 的 时 间 都 非常 少 。 最 需要 花费 时 间 的 环节 是 特 
征 工程 : 数据 收集 、 数 据 集成 、 数 据 清洗 和 数据 理解 。 在 本 书 的 练习 中 , 我 估计 与 建 模 相 比 ，90% 
的 时 间 要 花 在 上 述 环节 的 编码 工作 上 , 这 还 是 在 大 多 数 数据 集 都 非常 小 且 易 于 获取 的 情况 下 。 在 
我 的 实际 工作 中 ， 使 用 SAS 时 ，99% 的 时 间 用 在 了 PROC SQL 上 ， 只 有 1% 的 时 间 用 在 PROC 
GENMOD 、PROC LOGISTIC 或 Enterprise Miner 上 。 


对 于 特征 工程 ， 人 们 有 两 种 观点 。 一 种 认为 专业 知识 必 不 可 少 〈 我 认同 这 一 观点 )， 另 一 种 
认为 机 顺 学 习 算 法 可 以 自动 完成 特征 选择 /构建 的 大 部 分 工作 。 一 些 创 业 公司 声称 这 是 完全 可 行 
的 。( 我 曾经 和 几 个 家 伙 聊 过 , 谈 理论 时 他 们 滔滔 不 绝 , 一 旦 涉及 具体 细节 就 闭口 不 言 了 。 ) 假设 
你 有 几 百 个 候选 特征 〈 自 变量 )， 进 行 自 动 特征 选择 的 方法 是 计算 单 变量 信息 值 。 一 个 特征 在 孤 
立 状 态 下 会 表现 为 完全 不 相关 ,但 与 男 一 个 特征 组 合 起 来 就 可 能 变 得 非常 重要 为 解决 这 个 问题 ， 
需要 生成 无 数 的 特征 组 合 。 这 必然 会 带 来 一 个 潜在 的 问题 一 一 计算 时 间 和 成 本 将 大 幅 提高 , 并 且 
可 能 造成 模型 的 过 拟 合 。 说 到 过 拟 合 ， 我 们 会 在 下 一 个 注意 事项 中 继续 讨论 。 









































































































































过 拟 合 与 欠 拟 合 


当 模型 的 泛 化 效果 不 佳 时 ， 就 会 表现 出 过 拟 合 。 如 果 你 使 用 训练 数据 达到 了 95% 的 分 类 精确 
度 , 但 使 用 男 一 组 数据 测试 时 ， 精 确 度 却 下 降 到 了 50%， 那 么 模型 的 方差 就 太 高 了 。 如 果 训 练 数 
据 的 精确 度 为 60%， 测 试 数据 的 精确 度 为 539%， 那 么 模型 的 方差 很 小 ,但 是 偏差 太 大 。 这 种 偏差 
与 方差 之 间 的 权衡 是 机 需 学 习 和 模型 复杂 度 的 一 个 基本 问题 。 


让 我 们 先 看 看 定义 。 偏 差 是 模型 的 预测 值 或 预测 水 平 与 训练 数据 中 的 实际 值 或 实际 水 平 之 间 
的 差别 ,方差 是 训练 数据 集 的 预测 值 或 预测 水 平 相对 于 其 他 数据 集 的 预测 值 或 预测 水 平 的 离散 程 
度 。 当 然 ， 我 们 的 目标 是 使 总 体 误差 〈 偏差 + 方差 ) 最 小 ， 但 这 与 模型 复杂 度 又 有 什么 关系 呢 ? 


为 了 说 明 其 中 的 关系 , 假设 要 进行 一 项 预测 , 并 用 训练 数据 建立 一 个 简单 的 线性 模型 。 这 个 
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模型 非常 简单 ， 所 以 具有 高 偏差 ; 男 一 方面 ， 训 练 数据 和 测试 数据 之 间 的 方差 却 很 小 。 如 果 我 们 
在 线性 模型 中 加 入 多 项 式 或 者 建立 决策 树 , 模型 会 变 得 更 复杂 , 偏差 会 减 小 。 但 偏差 减 小 的 同时 ， 
模型 的 方差 会 扩大 , 泛 化 能 力 会 降低 。 你 可 以 在 下 图 中 看 到 这 个 现象 。 所 有 机 器 学 习 项 目 都 应 该 
尽力 达到 偏差 和 方差 之 间 的 最 佳 平衡 点 ， 这 说 起 来 容易 ， 做 起 来 很 难 。 























误差 








模型 复杂 度 
我 们 会 在 其 他 章节 讨论 解决 这 个 问题 和 优化 模型 复杂 度 的 方法 ， 包 括 交 叉 验 证 ( 第 2~7 章 ) 
和 正则 化 (第 4 章 )。 





因果 关系 


相关 性 不 等 于 因果 关系 ,这 一 点 应 该 已 经 广为人知 , 不 需 多 费 展 舌 。 但 果真 如 此 吗 ? 现实 世 
界 中 , 明显 有 人 依然 摘 不 清 相 关 性 和 因果 关系 的 区 别 。 所 以 , 我 们 必须 牢记 并 且 坚 定 地 告诉 他 人 ， 
算法 基于 观测 数据 而 不 是 实验 数据 , 不 管 从 机 器 学 习 中 得 到 多 么 完美 的 相关 性 ,都 不 能 胜 过 从 正 
确 的 实验 中 得 到 的 结论 。 正 如 佩 德 罗 多 明 戈 斯 教授 所 说 : 


“如 果 发 现 人 们 在 超市 经 常 同时 购买 啤酒 和 纸尿裤 ， 那 么 把 啤酒 放 在 纸尿裤 旁边 可 
能 会 提高 销量 。 但 如 果 没 有 经 过 实验 验证 ， 这 个 结论 就 站 不 住 脚 。 























一 一 佩 德 罗 ， 多 明 苞 斯 ，2012 


第 11 章 会 使 用 一 种 来 自 计 量 经 济 学 的 方法 在 时 间 序 列 中 探索 因果 关系 , 讨论 一 个 情感 和 政治 
敏感 性 的 问题 。 








第 1 版 前 言 ”5 




















我 就 不 再 喝 唆 了 ， 下 面 开 始 用 R 玩 转机 吕 学 习 吧 ! 如 果 你 对 于 R 编 程 完全 是 个 门外汉 ， 我 建 
议 你 跳 过 前 面 的 内 容 ， 直 接 学 习 附录 中 的 R 使 用 方法 。 不 管 你 从 哪里 开始 阅读 ， 请 记 住 本 书 探讨 
的 是 掌握 机 咒 学 习 的 过 程 ， 而 不 是 要 达到 某 个 目标 。 只 要 我 们 在 这 个 领域 内 辛勤 耕耘 ， 就 会 一 直 
有 令 人 惊喜 的 新 事物 值得 我 们 探索 。 所 以 , 我 非常 希望 收 到 你 的 评论 、 想 法 、 建 议 、 抱 怨 和 牢骚 。 
就 像 印第安 苏 族 勇 士 的 口号 一 样 :“ 共 同 前 进 !” 

































































本 书 内 容 


第 1 章 说 明 机 器 学 习 不 仅仅 是 写 代 码 。 为 了 使 你 的 工作 在 业界 具有 持久 的 影响 ， 我 们 介绍 一 
个 经 过 考验 的 流程 ， 使 你 有 个 好 的 开始 并 走向 成 功 。 


第 2 章 为 学 习 支 持 向 量 机 和 梯度 推进 等 高 级 方法 打下 坚实 基础 。 没 有 比 最 小 二 乘 线性 回归 更 
基础 的 方法 了 。 


第 3 章 讨 论 如 何 使 用 逻辑 斯 蒂 回 归 与 判别 分 析 来 预测 分 类 结果 。 


第 4 章 介 绍 正则 化 技术 ， 帮 助 提高 模型 的 预测 能 力 和 可 理解 性 。 特 征 选择 是 机 带 学 习 中 最 关 
键 、 最 有 挑战 性 的 部 分 。 


第 5 章 开始 研究 更 高 级 的 非 线性 技术 。 机 器 学 习 的 真正 威力 将 揭 开 面纱 。 

第 6 章 介绍 几 种 机 器 学 习 领域 内 具有 最 强 预 测 能 力 的 技术 ， 特 别 是 对 于 分 类 问题 而 言 。 单 决 
策 树 将 与 更 高 级 的 随机 森林 和 提升 树 一 起 讨论 。 

第 7 章 介 绍 一 些 当前 应 用 中 的 最 激动 人 心 的 机 器 学 习 技 术 。 神 经 网 络 的 灵感 来 自 于 大 脑 的 工 
作 原 理 ， 它 将 与 其 最 近 的 高 级 分 支 一 -深度 学 习 一同 接 受 检验 。 

第 8 章 开始 涉及 无 监督 学 习 ， 它 的 目标 不 是 做 出 预测 ， 而 是 把 重点 放 在 发 现 观测 数据 中 的 隐 
含 结构 上 。 我 们 将 讨论 3 种 聚 类 方法 层次 聚 类 、K 均 值 和 围绕 中 心 的 划分 (PAM )。 

第 9 章 继续 研究 无 监督 学 习 方法 。 主 成 分 分 析 用 来 发 现 特征 中 的 隐 含 结构 ， 一 旦 发 现 其 中 的 
结构 ， 新 的 特征 将 用 于 监督 学 习 。 

第 10 章 介绍 用 来 提高 销量 、 检 查 炊 诈 和 增进 健康 的 技术 。 你 将 学 习 食品 杂货 店 对 于 购买 习惯 
的 购物 馆 分 析 ， 然 后 研究 如 何在 网 站 评估 的 基础 上 建立 推荐 引 葡 。 

第 11 章 讨论 单 变量 预测 模型 、 二 元 回归 模型 和 格 兰 杰 因 果 关 系 模型 ,还 包括 一 个 关于 碳 排放 
和 气候 变化 的 分 析 。 

第 12 章 展示 一 个 定量 文本 挖掘 框架 以 及 如 何 建立 主题 模型 。 伴 随 着 时 间 序列 ， 数据 世界 包含 
着 文本 形式 的 海量 数据 。 既 然 如 此 多 的 数据 都 是 文本 形式 ， 那 么 懂得 如 何 对 文本 数据 进行 处 理 、 
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编程 和 分 析 就 显得 特别 重要 。 


附录 介绍 R 的 语法 及 其 强大 功能 。R 有 一 个 陡峭 的 学 习 曲 线 ， 一旦 你 熟练 掌握 ， 就 会 发 现 对 
于 数据 准备 和 机 器 学 习 来 说 ，R 的 威力 有 多 人 么 强大 。 




















准备 工作 


R 是 免费 的 开源 软件 ， 你 只 需 从 https://www.r-project.org/ 下 载 并 安装 即 可 。 我 强烈 建议 你 从 
https://www.rstudio.com/products/RStudio/ 下 载 IDE 和 RStudio， 当 然 ， 这 一 步 不 是 必需 的 。 





目标 读者 

本 书 的 目标 读者 是 数据 科学 家 、 数 据 分 析 师 等 专业 人 员 。 如 果 你 具有 使 用 R 进 行 机 器 学 习 的 
工作 经 验 ， 又 想 提高 能 力 以 成 为 机 器 学 习 领 域 的 专家 ， 那 么 本 书 也 非常 适合 你 。 
排版 约定 

本 书 以 不 同文 本 样式 区 分 不 同 种 类 的 信息 ， 下 面 列 出 并 解释 几 种 样式 示例 。 


文本 中 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、 虚 拟 URL、 用 户 输 
入 和 Twitter 用 户 定 位 都 表示 为 :“ 可 以 在 R 的 MASS 包 中 找到 该 数据 杠 ， 名 为 biopsy。” 


所 有 命令 行 输入 和 输出 都 表示 为 : 























cor(xl1l, yl1) #correlation of xl and yl 
[1] 0.8164205 


> cor(x2, y1) #correlation of x2 and y2 


[1] 0.8164205 


新 名 词 和 重点 词 会 以 楷体 表示 。 显 示 器 屏幕 ( 比如 菜单 或 对 话 框 ) 上 的 词 在 文本 中 表示 为 : 
“如 果 想 下 载 新 模块 ， 我 们 可 以 使 用 Files|Settings|Project Name|Project Interpreter。” 


警告 或 重要 的 注意 事项 。 


MY 


LD 提示 或 小 技巧 。 








读者 反馈 


欢迎 各 位 提出 宝贵 意见 ,请 让 我 们 知道 你 对 本 书 的 看 法 一 一 喜欢 什么 或 者 不 喜欢 什么 。 读 者 
人 馈 对 我 们 非常 重要 ， 0 最 有 帮助 的 主题 。 


要 想 提供 反馈 ， 只 需 登 录 http:W/www.packtpub.com 本 书页 面 并 留言 。 

















局 











客户 支持 
如 果 您 购买 了 我 们 出 版 的 图 书 ， 我 们 将 提供 一 系列 服务 来 使 您 获得 最 大 收益 。 





下 载 示 例 代码 
你 可 以 从 http:/www.packtpub.com 本 书页 面 下 载 书 中 示例 代码 。 
文件 下 载 结束 之 后 ， 请 确定 使 用 以 下 软件 的 最 新 版 本 解压 或 提取 文件 : 


口 Windows 系 统 : 使 用 WinRAR 或 7-Zip 
口 Mac 系 统 : 使 用 Zipeg 、iZip 或 UnRarX 
口 Linux 系 统 : 使 用 7-Zip 或 PeaZip 


https://github.com/PacktPublishing/， 这 个 地 址 还 提供 了 其 他 种 类 丰富 的 图 书 和 视频 资料 相关 
代码 包 ， 好 好 看 一 下 吧 ! 

















勘误 

尽管 我 们 做 了 各 种 努力 来 保证 内 容 的 准确 性 ， 依 然 无 法 避免 出 现 错误 。 如 果 你 在 书 中 发 现 
文字 或 代码 错误 并 告知 我 们 ， 我 们 将 非常 感谢 。 通 过 勘误 ， 有 助 提高 其 他 读者 的 阅读 体验 ， 并 
帮助 我 们 在 本 书 的 后 续 版 本 中 做 出 改进 ,不 管 您 发 现 什 么 错误 ,都 可 以 通过 http://www.packtpub. 
com/submit-errata ) 告诉 我 们 。 一 旦 勘误 通过 确认 ,将 显示 在 页 面 上 的 勘误 表 中 。 
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反 盗版 


互联 网 上 针对 有 版 权 资 料 的 盗版 行为 一 直 存 在 , 并 逐步 扩展 到 所 有 媒体 。 出 版 社 非常 重视 对 
自己 版 权 和 许可 的 保护 ， 如 果 您 在 互联 网 上 发 现 对 于 我 们 工作 的 任何 形式 的 非法 复制 行为 , 请 立 
即将 地 址 或 网 站 名 通知 我 们 ， 我 们 会 采取 对 策 。 


如 果 我 们 在 作者 保护 和 造福 读者 方面 得 到 您 的 帮助 ， 我 们 将 非常 感谢 。 
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问题 


对 本 书 有 任何 疑问 ， 都 可 以 通过 questions@packtpub.com 联 系 我 们 ， 我 们 会 尽 最 大 努力 解决 
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成 功 之 路 








“如 果 你 不 知道 要 去 哪里 ， 就 只 能 随波逐流 ,无所适从 。 
一 一 刘易斯 . 卡 罗 尔 


“如 果 你 不 能 将 要 做 的 事情 描述 成 一 个 流程 ， 那 么 你 就 不 知道 自己 在 做 什么 。” 
一 一 爱德华 兹 . 戴 明 


乍 一 看 ,这 一 章 跟 机 器 学 习 没 有 什么 关系 , 但 实际 上 本 章 内 容 对 于 机 器 学 习 非 常 重要 ( 特别 
是 对 于 机 噩 学习 的 实施 以 及 由 此 造成 的 改变 )。 不 管 我 们 如 何 定 义 成 功 ， 最 聪明 的 人 、 最 好 的 软 
件 和 最 好 的 算法 都 不 能 确保 其 实现 。 


在 大 多 数 (即便 不 是 全 部 ) 项 目 中 ,成 功 解决 问题 或 改进 决策 的 关键 因素 不 是 算法 ， 而 是 沟 
通 能 力 和 影响 力 之 类 的 非 定 量 的 软 技能 。 很 多 人 认为 其 中 的 问题 在 于 , 我 们 很 难 量 化 这 些 软 技能 
的 效果 。 一 般 来 说 ， 人 们 遇 到 不 想 做 的 事情 都 会 止步 不 前 。 别 忘 了 ， 爆 红 的 电视 喜剧 《生活 大 爆 
炸 》 就 是 这 么 拍 的 。 所 以 , 本 章 目 的 是 使 你 走向 成 功 ， 意 在 提供 一 个 流程 ， 至 少 是 一 个 灵活 的 流 
程 , 使 你 成 为 一 位 变革 推动 者 : 一 个 不 靠 位 高 权重 以 势 压 人 ,而 是 具有 真知 灼 见 并 能 付 诸 实施 的 
人 。 我 们 将 集中 讨论 跨行 业 数 据 挖掘 标准 流程 (Cross-Industry Standard Process for Data Mining， 
CRISP-DM )， 这 可 能 是 最 著名 也 是 最 受 重 视 的 项 目 分 析 方 法 。 即 使 你 使 用 的 是 其 他 成 熟 方法 或 
专 有 技术 ， 也 可 以 在 本 章 有 所 收获 。 


我 可 以 毫 不 犹豫 地 说 ， 事 情 说 起 来 容易 ， 做 起 来 难 。 对 于 本 章 内 容 中 的 错误 和 遗漏 ， 我 感觉 
非常 内 次 和 遗憾 。 希 望 你 能 凭 能力 和 运气 避免 我 在 过 去 12 年 中 受到 的 各 种 身心 上 的 伤害 。 


最 后 , 我 会 介绍 一 个 流程 图 ( 快速 指南 ), 你 可 以 使 用 它 判断 应 当 使 用 何 种 方法 解决 手头 的 问题 。 













































































1.1 流程 


CRISP-DM 流 程 本 来 是 专门 为 数据 挖掘 设计 的 ,但 它 非常 灵活 和 全 面 ， 完 全 可 以 应 用 于 任何 
项 目 分 析 , 无 论 是 预测 性 分 析 、 数 据 科 学 还 是 机 器 学 习 项 目 。 不 要 被 长 长 的 任务 列表 吓 倒 ， 因 为 
你 可 以 在 流程 实施 过 程 中 根据 自己 的 判断 对 流程 进行 调整 以 适应 实际 情况 。 图 1-1 给 出 了 这 个 流 
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程 的 可 视 化 表示 ， 以 及 可 以 使 流程 非常 灵活 的 反馈 回路 。 























图 1-1 CRISP-DM 1.0， 循 序 渐进 地 进行 数据 挖掘 
流程 分 以 下 6 个 阶段 : 


口 业务 理解 
口 数据 理解 
口 数据 准备 
口 建 模 
口 评价 
口 部 署 














如 果 想 查看 包括 所 有 任务 和 子 任务 的 完整 流程 说 明 ， 请 参考 SPSS 的 文章 “CRISP-DM 1.0， 
step-by-step data mining guide” (https://the-modeling-agency.com/crisp-dm.pdf )。 


我 会 对 流程 中 的 每 个 步骤 ( 包括 其 中 的 重要 任务 ) 进行 说 明 , 但 这 不 是 包含 详细 细节 的 说 明 
书 ， 而 是 更 高 层次 的 介绍 。 我 不 会 跳 过 任何 关键 细节 ， 但 会 重点 介绍 可 以 应 用 在 任务 上 的 技术 。 
请 记 住 , 在 后 面 的 章节 中 我 们 将 使 用 这 些 流程 步 又 , 作为 机 器 学 习 方 法 实际 应 用 中 的 一 个 通用 框 


架 ， 特 别 是 R 语 言 实现 。 




















1.2 业务 理解 


我 们 绝对 不 能 低估 流程 的 第 一 阶段 对 于 最 后 成 功 的 重要 性 , 这 是 
败 在 很 大 程度 上 将 决定 项 目 其 余部 分 的 成 败 。 本 阶段 的 目的 是 确定 业 











基础 的 一 个 阶段 , 它 的 成 
需 


最 
务 需求 , 进而 转化 为 分 析 目 
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标 。 这 一 阶段 有 以 下 4 个 任务 : 


(1) 确定 业务 目标 
(2) 现状 评估 
(3) 确定 分 析 目 标 
(4) 建立 项 目 计划 











1.2.1 ”确定 业务 目标 


这 一 任务 的 关键 是 确定 组 织 的 目标 并 且 限 定 问 题 的 范围 。 一 个 好 问题 是 : 我 们 要 做 什么 改 
变 ? 这 看 上 去 是 一 个 老 掉 牙 的 问题 , 但 它 确实 可 以 使 人 们 从 分 析 的 视角 去 思索 到 底 想 要 什么 , 并 
且 认 识 到 需要 做 出 的 决策 的 根本 目的 。 这 个 问题 还 可 以 防止 你 在 调研 中 走 得 太 远 , 或 做 一 些 不 必 
要 的 工作 。 所 以 ， 最 关键 的 一 点 就 是 确定 决策 。 对 于 管理 团队 来 说 ,决策 的 一 个 范例 就 是 ， 对 是 
和 否 进行 资源 投入 做 出 明确 的 选择 。 当 然 ， 选 择 不 做 任何 改变 也 是 一 种 决策 。 


这 并 不 意味 着 如 果 选 择 没有 彻底 明确 , 项 目 就 不 能 开始 。 有 些 时 候 , 问题 不 存在 或 不 能 清楚 
定义 ， 正 如 美国 前 国防 部 长 唐纳德 ， 拉 姆 斯 菲尔德 所 说 ， 这 是 “已 知 的 未 知 "。 实 际 上 ， 问 题 经 
常 没有 得 到 清楚 定义 , 项 目的 主要 目标 就 是 更 加 深入 地 理解 问题 并 提出 假设 。 又 如 拉 姆 斯 菲尔德 
部 长 所 说 , 还 有 “未 知 的 未 知 ”"， 也 就 是 说 你 根本 不 知道 自己 不 知道 什么 。 但 是 ， 在 没有 定义 清 
楚 的 问题 中 ， 我 们 可 以 根据 基于 各 种 假设 所 产 出 结果 的 资源 投入 ,来 理解 接 下 来 将 发 生 什么 。 


在 这 一 任务 中 , 还 需要 重视 对 期 望 的 管理 。 完 美的 数据 是 不 存在 的 一 一 不 管 其 深度 与 广度 如 
何 。 现 在 要 基于 你 的 专业 知识 说 明 什么 是 可 行 的 ， 而 不 是 做 出 保证 。 


我 建议 完成 这 一 任务 之 后 ,要 得 到 两 个 成 果 。 第 一 个 就 是 任务 说 明 。 这 可 不 是 单位 中 的 琐碎 
宛 长 的 任务 说 明 ， 而 是 你 自己 的 ,更 进一步 说 ， 是 经 过 项 目 负责 人 确认 过 的 任务 说 明 。 我 是 从 多 
年 的 军旅 生涯 中 悟 到 这 一 点 的 , 我 可 以 长 篇 大 论 地 说 明 为 什么 它 非常 有 效 , 但 那 是 以 后 的 事 。 我 
们 可 以 认为 ， 当 没有 明确 的 方向 和 指导 时 ,任务 说 明 (或 者 随便 你 想 叫 它 什 么 ) 是 所 有 利益 相关 
者 的 统一 声明 ， 可 以 防止 需求 范围 蔓延 。 它 包括 以 下 几 部 分 。 


口 谁 : 你 、 你 的 团队 或 者 项 目 名 称 , 所 有 人 都 喜欢 一 个 酷 酷 的 项 目 名 , 例如 “ 星 蛇 行动 ”“ 融 
合 ”， 等 等 。 

口 什么 : 你 要 进行 的 任务 ， 例如， 实施 机 器 学 习 。 

口 何 时 : 最 后 期 限 。 

口 何 地 : 可 以 是 地 理 意 义 上 的 ， 也 可 以 是 功能 、 部 门 、 自 发 项 目 等 。 

口 为 什么 : 项 目的 目的 ， 也 就 是 业务 目标 。 


第 二 个 成 果 就 是 要 尽 可 能 明确 成 功 的 定义 。 达 到 哪些 条 件 才 算是 成 功 ? 要 帮助 团队 或 负责 人 
清晰 描述 出 你 所 理解 的 成 功 ， 然 后 你 的 工作 就 是 将 其 转化 为 建 模 需 求 。 
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1.2.2 ”现状 评估 


这 项 任务 用 于 在 项 目 计 划 中 收集 信息 ,包括 可 用 资源 、 限 制 条 件 和 假设 ; 还 要 识别 风险 ,并 
做 出 应 急 方案 。 多 说 一 句 ， 在 这 个 阶段 ,还 要 确定 关键 的 利益 相关 者 ,也 就 是 要 受到 未 来 决策 影 
响 的 人 。 


这 里 有 几 点 需要 注意 。 当 检查 可 用 资源 时 ,不 要 忘 了 将 过 去 和 现在 的 项 目 记录 都 看 一 遍 。 要 
特别 关注 组 织 中 曾经 或 正在 处 理 相同 问题 的 人 , 要 将 你 的 工作 和 他 们 的 工作 结合 起 来 。 不 要 忘 了 
列举 风险 ,时 间 、 人 员 和 费用 都 会 产生 风险 。 尽 你 的 最 大 努力 建立 一 个 利益 相关 者 列表 , 包括 那 
些 影响 项 目的 人 和 被 项 目 影响 的 人 ,确定 这 些 人 是 谁 ， 如何 影响 决策 或 被 决策 影响 。 这 项 工作 完 
成 之 后 ， 就 要 和 项 目 负责 人 一 起 建立 一 个 与 这 些 利 益 相关 者 的 沟通 计划 。 





















































1.2.3 ”确定 分 析 目 标 

在 这 一 步 ,你 需要 将 业务 目标 转化 为 技术 需求 。 这 需要 将 “确定 业务 目标 ”任务 中 的 成 功 标 
准 转化 为 技术 上 的 成 功 标准 ， 此 时 可 能 要 引入 均 方 根 误差 或 预测 准确 度 水 平等 标准 。 
1.2.4 建立 项 目 计划 


这 一 步 的 任务 是 基于 目前 收集 到 的 所 有 信息 建立 一 个 有 效 的 项 目 计划 。 不 管 你 使 用 什么 技 
术 , 甘 特 图 或 其 他 图 表 都 可 以 , 一 定 要 使 其 成 为 沟通 计划 的 一 部 分 。 要 使 大 多 数 利益 相关 者 了 解 
这 个 计划 ， 并 根据 实际 情况 定期 更 新 。 


























1.3 ”数据 理解 


在 经 过 了 虽然 痛苦 但 却 至 关 重 要 的 第 一 阶段 之 后 , 你 可 以 着 手 于 数据 工作 了 。 这 个 阶段 的 任 
务 如 下 : 


(1) 数据 收集 

(2) 数据 描述 

(3) 数据 探索 

(4) 数据 质量 校 验 

这 一 步 是 ETL ( 数据 抽取 、 转 化 和 加 载 ，Extrack，Transform, Load ) 的 典型 案例 ， 也 有 几 
个 需要 注意 的 地 方 。 你 需要 做 初步 判定 , 确认 目前 可 用 的 数据 能 够 满足 你 的 分 析 要 求 。 当 你 使 用 
可 视 化 或 其 他 方法 进行 数据 探索 时 , 需要 确定 变量 是 否 稀 玻 以 及 数据 缺失 程度 , 从 而 确定 要 使 用 
的 机 器 学 习 方 法 ， 并 确认 对 缺失 数据 的 填补 是 否 必 要 和 可 行 。 


数据 质量 的 校 验 是 非常 重要 的 。 需 要 花费 一 些 时 间 来 搞 清 楚 数 据 是 由 谁 收 集 的 , 如 何 收集 的 ， 
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甚至 还 要 搞 清 为 什么 要 收集 数据 。 你 经 常会 遇 到 数据 收集 不 完整 的 情况 , 意外 的 IT 问 题 会 导致 数 
据 错 误 , 业务 规则 也 会 按 计划 进行 调整 。 这 在 时 间 序 列 分 析 中 非常 重要 ,决定 数据 分 类 的 业务 规 
则 会 经 常 随时 间 变 化 。 最后， 从 这 个 阶段 开始 对 程序 代码 进行 归档 是 个 好 主意 。 作 为 归档 过 程 的 
一 部 分 ， 如 果 数 据 字典 不 可 用 ， 那 么 为 了 防止 潜在 的 严重 问题 ， 请 一 定 要 做 一 个 数据 字典 。 

















1.4 数据 准备 
差不多 了 ! 这 个 阶段 包括 下 面 5 个 任务 : 


(1) 数据 选择 
(2) 数据 清洗 
(3) 数据 构建 
(4) 数据 整合 
(5) 数据 格式 化 


这 些 任 务 不 需 太 多 解释 ,其 目的 就 是 准备 好 数据 以 输入 算法 ,包括 数据 合并 、 特 征 工 程 、 数 
据 转换 等 。 如 果 需 要 填补 缺失 数据 ， 也 要 在 这 个 阶段 完成 。 尤 其 是 使 用 R， 则 要 注意 输出 结果 需 
要 如 何 标记 。 如 果 输 出 变量 (响应 变量 ) 是 Yes/No 的 形式 ， 那 么 在 有 些 程序 包 中 是 不 被 支持 的 ， 
需要 进行 数据 转换 ， 否 则 就 没有 1/0 变 量 。 在 这 个 阶段 中 ， 如 果 需 要， 还 要 将 数据 分 成 不 同 的 集 
合 : 训练 集 、 测 试 集 或 验证 集 。 这 个 阶段 的 工作 极其 繁重 , 但 是 很 多 过 来 人 会 告诉 你 , 这 就 是 你 
脱颖而出 的 机 会 。 做 好 这 些 工 作 ， 我 们 就 可 以 得 到 丰厚 的 回报 。 

























































































1.5 建 模 


在 这 个 阶段 ， 你 之 前 所 做 的 一 切 工作 都 该 有 个 结果 了 一 一 或 者 挥 拳 庆祝 ， 或 者 抱 头 痛哭 。 别 
在 意 ， 如 果 这 个 工作 那么 简单 ， 那 不 是 谁 都 能 做 了 吗 ? 本 阶段 的 任务 包括 : 


(1) 选择 建 模 技术 

(2) 设计 检验 方法 

(3) 建立 模型 

(4) 评估 模型 

奇怪 的 是 ， 这 个 流程 阶段 中 需要 注意 的 事情 都 是 你 已 经 考虑 过 的 和 准备 好 的 。 在 第 一 阶段 ， 
你 对 如 何 进行 建 模 总 会 有 一 点 概念 。 请 记 住 ， 这 是 一 个 灵活 的 、 可 迭代 的 流程 ， 而 不 是 像 机 组 人 
员 备忘录 那样 严格 的 线性 流 图 。 

本 章 后 面 的 快速 指南 可 以 帮助 你 正确 选择 建 模 技术 。 检验 设计 指 的 是 如 何 建立 你 的 测试 数据 
集 和 训练 数据 集 ， 以 及 如 何 使 用 交叉 验证 。 在 数据 准备 阶段 就 需要 考虑 这 些 事情 了 。 
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模型 评估 需要 将 模型 与 在 业务 理解 阶段 建立 的 成 功 标准 进行 对 比 , 比如 均 方 根 误差 、 提 升 度 、 
ROC 曲 线 等 。 


1.6 评价 


在 评价 阶段 ， 主 要 目的 是 确认 已 经 完成 的 工作 和 选择 的 模型 是 否 符合 业务 目标 。 问 一 下 自己 
和 他 人 ， 我们 达到 项 目 成 功 的 要 求 了 吗 ? 看 看 Netflix 这 一 反面 教材 。 我 相信 你 一 定 知道 ，Netflix 
悬赏 100 万 美元 寻找 团队 ， 开 发 最 好 的 、 具 有 最 低 均 方 根 误差 的 推荐 算法 。 但 是 ，Netflix 并 没有 
实施 这 个 算法 ， 因 为 算法 获得 的 精确 度 提 升 根本 配 不 上 实施 成 本 。 请 永远 记 住 奥 卡 姆 剃刀 原理 。 
评价 阶段 至 少 包括 以 下 任务 : 


(1) 评价 结 
(2) 回顾 过 程 
(3) 确定 下 一 步 


回顾 过 程 时 ,非常 有 必要 使 工作 结果 获得 管理 层 的 认可 ,并 与 其 他 利益 相关 者 进行 沟通 ， 以 
取得 他 们 的 支持 。 当 然 ， 在 流程 的 前 儿 个 阶段 也 是 如 此 。 如 果 你 想 成 为 变 章 推动 者 ,下 一 个 步 又 
就 是 确保 你 已 经 回答 利益 相关 者 头脑 中 的 这 几 个 问题 : 是 什么 ? 要 什么 ? 现在 要 做 什么 ”如 果 你 
能 用 前 面 阶段 中 产生 的 决策 来 说 服 他 们 现在 要 做 什么 ， 那 你 就 成 功 了 。 

































































1.7 ”部署 


如 果 直 到 现在 所 有 事情 都 按照 计划 进行 , 那么 只 需 按 动 一 下 开关 ,你 的 模型 就 会 运转 。 假设 
情况 并 非 如 此 简单 ， 那 么 这 个 阶段 要 进行 以 下 任务 : 


(1) 按 计划 部 署 
(2) 监测 与 维护 
(3) 完成 总 结 报告 
(4) 项目 回顾 


在 部 署 、 监 测 和 维护 工作 展开 之 后 ， 对 于 你 和 你 的 团队 来 说 , 最 重要 的 事情 就 是 完成 一 份 完 
整 详尽 的 总 结 报告 。 报 告 应 该 包括 一 份 白皮书 和 一 份 幻 灯 片 简介 。 我 要 解释 一 下 ,我 没有 按照 自 
己 的 意愿 将 工作 成 果 放 在 白皮书 中 ， 因 为 我 和 军 方 签 有 合同 ， 军 方 强烈 要 求 使 用 PowerPoint 幻 灯 
片 。 但 是 ,幻灯 片 很 可 能 是 某 些 人 出 于 自己 的 目的 来 应 付 你 的 ， 华 而 不 实 ， 空 话 连篇 。 相 信 我 ， 
白皮书 不 会 有 这 个 问题 ， 因 为 它 是 你 的 工作 成 果 和 信念 的 延续 。 如 果 你 所 在 的 组 织 坚持 使 用 
PowerPoint， 那 么 你 可 以 使 用 它 向 利益 相关 者 做 简单 的 介绍 ， 但 要 使 用 白皮书 作为 文档 记录 和 预 
读 资料 。 在 R 中 ， 生 成 白皮书 的 标准 过 程 是 使 用 knittr 和 LaTex 包 。 


















































1.8 算法 流程 图 了 











现在 , 我 们 已 经 讨论 了 所 有 重要 阶段 ， 你 可 以 大 展 身 手 了 。 但 是 不 管 你 以 正式 方式 还 是 非 正 -el 
式 方式 推进 流程 ， 其 中 总 要 包括 以 下 几 点 : 


口 计划 做 什么 ? 

口 实际 做 了 什么 ? 

口 为 什么 做 这 些 工 作 ， 或 为 什么 不 做 ? 

口 以 后 的 项 目 中 还 需要 做 什么 支持 工作 ? 

口 以 后 的 项 目 中 要 进行 哪些 改进 ? 

口 确定 行动 计划 ,保证 支持 和 改进 工作 顺利 进行 。 


综 上 所 述 , 我 们 完成 了 对 CRISP-DM 流 程 的 介绍 。 这 个 流程 提供 了 一 个 综合 而 又 灵活 的 框架 ， 
以 保证 项 目 成 功 实施 ， 并 使 你 成 为 那个 推进 变革 的 人 。 





























1.8 算法 流程 图 

本 节 的 目的 是 建立 一 个 工具 , 它 不 但 可 以 帮助 你 选择 合适 的 建 模 技术 ,而 且 可 以 帮助 你 更 加 
深入 地 思考 问题 , 你 也 可 以 用 它 和 项 目 团队 或 项 目 负 责 人 一 起 做 出 问题 的 框架 。 这 种 使 用 流程 图 
的 技术 并 不 复杂 ， 足 以 让 你 开始 工作 了 。 它 还 包括 了 一 些 本 书 没 有 涉及 的 技术 。 

图 1-2 启 动 了 一 个 流程 ， 通 过 这 个 流程 你 可 以 选择 可 能 使 用 的 建 模 技术 。 你 只 需 回 答 问题 ， 
它 会 指引 你 进入 图 1-3~ 图 1-6。 



































数据 是 文本 形式 
的 还 是 时 间 序 列 ? 
否 


要 对 类 别 
进行 预测 吗 ? 


是 
数据 中 有 标注 吗 ? 
是 
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如 果 数 据 是 文本 形式 的 或 时 间 序 列 形式 的 ， 那 么 你 应 该 采用 图 1-3 中 的 流程 。 








数据 是 文本 形式 的 吗 ? 





文本 挖掘 单 变量 预测 
于 痪 自 回 归 移 动 平 均 模型 
词 云 _ 指数 平滑 法 
话题 模型 (潜在 狄 里 克 雷 分 析 ) 线性 回归 
词法 分 析 ， 例 如 极 性 、 分 散 性 自 回归 条 件 异 方差 模型 


广义 自 回 归 条 件 异 方差 模型 





词 频 分 析 






































建 模 





动态 线性 下 
扩展 ARIMA 模 型 

转移 函数 、ARIMA 

向 量 自 回归 (VAR) 

格 兰 杰 因果 关系 

向 量 误差 修正 模型 (VECM) 
协 整 关系 




















图 1-3 





图 1-4 所 示 的 这 个 算法 分 支 中 ， 你 不 需要 文本 数据 和 时 间 序 列 数据 ， 也 不 需要 预测 分 类 。 所 
以 ， 你 的 目的 应 该 是 做 出 推荐 、 理 解 关联 规则 或 预测 出 一 个 数值 量 。 





1.8 ”算法 流程 图 9 
































上 推荐 ? 











是 否 寻 找 关 联 规 则 ? 









































推荐 引擎 关联 分 析 〈 购 物 人 
。 基 于 用 户 的 协同 过 滤 0 
。 基于 项 目的 协同 过 滤 Apriori 算 法 
异 自 底 向 上 格 遍 历 等 价 类 聚 类 算法 
i (ECLAT) Wi 


。 主 成 分 分 析 
。 交 替 最 小 二 乘法 





。 线性 回归 
。 最 小 化 绝对 收缩 和 选择 算 子 
(LASSO) 

。 岭 回归 
。 弹性 网 络 

。 PCA 回 归 

。 广义 相 加 模型 (GAM) 
。 偏 最 小 二 乘法 
























































图 1-4 


要 进入 图 1-5， 你 的 数据 不 能 是 文本 形式 的 或 时 间 序列 。 你 的 目的 是 对 数据 进行 分 类 ， 但 分 
类 结果 不 用 标记 ， 这 就 要 使 用 聚 类 方法 。 























。 开 均 
”围绕 中 心 点 的 划分 (PAM) 
， 自 组 织 映 射 (SOM) 


。 具有 噪声 的 基于 密度 的 空间 聚 类 方法 

















网 1-5 
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如 果 想 对 数据 分 类 并 进行 标记 ， 则 使 用 分 类 技术 ， 如 图 1-6 所 示 。 





接 图 1-2 


分 类 





逻辑 斯 蒂 回 归 

线性 判别 分 析 (LDA) 
K 最 近邻 (KNN) 
支持 向 量 机 (SVM) 
神经 网 络 /深度 学 习 
决策 树 

随机 森林 

梯度 提升 
朴素 贝 叶 斯 
生存 分 析 























1.9 “小结 


局 


本 章 介绍 如 何 使 你 自己 和 你 的 团队 在 承担 的 项 目 中 取得 成 功 。 我 们 介绍 了 CRISP-DM 流 和 





这 是 一 种 灵活 而 又 全 面 的 框架 , 其 目的 是 提高 沟通 能 力 和 影响 力 等 软 技 能 。 我 们 列举 了 流程 的 每 
个 阶段 及 其 任务 ， 还 详细 介绍 了 一 些 技术 和 注意 事项 ,以 保证 流程 顺利 执行 。 如 果 你 能 认真 遵循 
流程 ， 那 么 在 任何 组 织 中 ， 你 都 可 以 成 为 积极 的 变革 推动 者 。 





























本 章 的 另 一 部 分 内 容 是 关于 算法 流程 图 的 , 这 是 一 份 快 速 指 南 ,可 以 帮助 你 确定 合适 的 技术 ， 
以 解决 业务 问题 。 基 础 已 经 打 好 了 ,我 们 的 下 一 步 工作 就 是 使 用 机 器 学 习 技 术 解决 实际 问题 。 





线性 回归 : 机 器 学 习 基 础 技术 








“有 人 总 想 在 这 项 竞技 中 找到 根本 不 存在 的 东西 ， 但 橄榄 球 世 界 里 只 有 两 件 事 一 一 
拦截 与 抢断 。 


一 一 文 斯 . 隆 巴 迪 ， 楷 槛 球 名 人 堂 教练 


我 们 非常 有 必要 从 一 项 简单 但 又 特别 有 效 的 技术 开始 , 这 项 技术 已 经 应 用 了 很 长 时 间 , 它 就 
是 线性 回归 。 我 记得 阿尔 伯 特 : 爱 因 斯 坦 曾经 说 过 ， 事情 应 该 尽 可 能 简单 ， 直 到 不 能 再 简单 为 止 。 
这 真是 至 理 名 言 , 也 是 我 们 开发 机 带 学 习 算 法 时 应 该 遵循 的 经 验 法 则 。 线性 回归 使 用 最 小 二 乘法 
预测 定量 的 结果 , 想 想 我 们 随后 将 讨论 的 其 他 技术 , 真 的 没有 比 久 经 考验 的 线性 回归 更 简单 的 模 
型 了 。 实 际 上 ， 线 性 回归 是 我 们 后 面 要 讨论 的 所 有 方法 的 基础 ， 很 多 方法 仅 是 线性 回归 的 扩展 。 
坦白 地 说 ,如果 你 能 掌握 线性 回归 方法 , 那么 本 书 的 其 余部 分 就 易如反掌 。 因 此 ,在 我 们 成 为 机 
器 学 习 专 家 的 道路 上 ， 线 性 回归 是 一 个 非常 好 的 起 点 。 


本 章 包含 一 些 人 门 级 介绍 , 如 果 你 是 这 方面 的 专家 , 可 以 跳 过 这 些 内 容 , 直接 进入 下 一 主题 
和 否则， 请 确保 你 完全 理解 了 线性 回归 ， 然 后 才能 开始 学 习 那 些 更 复杂 的 机 器 学 习 方 法 。 你 会 发 现 
很 多 项 目 仅 靠 随后 讨论 的 技术 就 可 以 完成 。 线性 回归 可 能 是 最 容易 向 客户 解释 的 模型 了 ,大 多 数 
客户 都 能 大 致 理解 R 方 ( R-squared ) 的 意义 ,很 多 人 可 以 理解 得 更 深入 ， 对 变量 贡献 、 共 线性 
等 概念 都 能 接受 。 






































2.1 单 变量 回归 


我 们 先 从 一 个 简单 的 对 定量 型 响应 变量 的 预测 开始 。 令 这 个 响应 变量 为 Y, 还 有 一 个 预测 变量 
x， 假 设 7 与 x 具有 线性 关系 ， 那 么 这 个 预测 模型 可 以 表示 为 Y= Bo+ Bix+e。 我 们 规定 ，7 的 预测 值 
是 一 个 函数 ， 等 于 Bo ( 截 距 ) 加 上 Bi (斜率 ) 乘 以 x 再 加 上 一 个 误差 项 e。 最 小 二 乘法 选择 模型 参 
数 ， 使 预测 值 y 和 实际 值 Y 的 残 差 平方 和 (RSS ) 最 小 。 举 个 简单 的 例子 ,假设 我 们 有 两 个 实际 值 
卫生， 分 别 等 于 10 和 20， 两 个 预测 值 yy 和 ys 分 别 等 于 12 和 18。 要 计算 RSS， 只 需 把 它们 的 差 的 平 
方 相 加 : RSS = (了 -y+ (yy) ， 再 做 一 个 简单 的 代入 ， 可 以 得 到 (10 一 12)》 +(20 一 18)?=8。 
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我 曾经 和 一 个 一 起 进行 精益 六 西格玛 黑 带 培训 的 伙伴 说 过 ， 线 性 规划 中 最 重要 的 就 是 平方 
和 ; 理解 了 平方 和 ， 其 余 就 水 到 渠 成 了 。 从 某 种 程度 来 说 ， 的 确 如 此 。 


开始 实际 应 用 之 前 ,我 想 提醒 一 下 ， 当 你 看 到 有 关 突 破 性 研究 的 报道 时 ， 先 不 要 轻信 ， 要 有 
质疑 的 态度 ， 因 为 媒体 发 表 的 结论 可 能 未 经 验证 。 我 们 知道 ， 对 于 R 或 其 他 相关 软件 ， 只 要 有 输 
入 ， 就 会 给 出 一 个 结果 。 但 是 ， 仅 赁 数学 上 有 意义 和 很 高 的 相关 性 以 及 漂亮 的 R 方 统计 量 ， 是 不 
能 认为 结论 正确 的 。 


为 了 说 明 这 个 问题 ， 请 看 R 中 著名 的 Anscombe 数 据 集 。 它 由 统计 学 家 弗朗西斯 . 安 斯 库 姆 
( Francis Anscombe ) 建立 ， 用 来 强调 数据 可 视 化 和 异常 值 在 数据 分 析 中 的 重要 性 。 这 个 数据 集 有 
4 对 X 变 量 和 7 变量 ， 它 们 具有 相同 的 统计 特性 。 但 如 果 将 其 放 在 统计 图 中 ， 就 会 看 到 一 些 极 大 的 
差异 。 我 用 这 个 数据 集 进 行内 部 培训 , 还 教育 过 那些 只 盯 着 统计 量 而 不 进行 数据 探索 和 假设 检验 
的 商业 伙伴 。 如 果 你 有 同样 的 需求 ， 那 这 个 例子 就 是 一 个 非常 好 的 开始 。 这 只 是 我 们 正式 建 模 之 
前 的 一 个 小 插曲 。 


> #call up and explore the data 


































































































> data(anscombe) 


> attach(anscombe) 


X1L x2 x3 x4 yl y2 Y3 Y4 
1 10 10 10 8 8.04 9.14 7.46 6.58 
2 8 8 8 8 6.95 8.14 6.77 5.76 
3 13 13 13 8 7.58 8.74 12.74 7.71 
4 9 9 9 8 8.81 8.77 7.11 8.84 
5 11 11 11 8 8.33 9.26 7.81 8.47 
6 14 14 14 8 9.96 8.10 8.84 7.04 
7 6 6 6 8 7.24 6.13 6.08 5.25 
8 4 4 4 19 4.26 3.10 5.39 12.50 
9 12 12 12 8 10.84 9.13 8.15 5.56 
10 7 7 7 8 4.82 7.26 6.42 7.91 
11 5 5 5 8 5.68 4.74 5.73 6.89 


可 以 看 到 ， 每 对 变量 都 具有 相同 的 相关 系数 0.816。 前 两 对 变量 的 相关 系数 如 下 : 





> cor(xl, yl1) #correlation of xl and YL 
[1] 0.8164205 


> cor(x2, y1) #correlation of x2 and y2 
[1] 0.8164205 


当 我 们 画 出 这 4 对 变量 的 统计 图 时 ， 就 能 看 出 问题 了 ， 这 就 是 Anscombe 这 个 数据 集 的 设计 目 
的 。 如 下 所 示 : 
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> par(mfrow = c(2,2)) #create a 2x2 grid for 
































plotting 
> plot (xl1, yl, main = "Plot 1") 
> plot (x2, y2, main = "Plot 2") 
> plot (x3, y3, main = "Plot 3") 
> plot (x4, y4, main = "Plot 4") 
下 载 示 例 代码 
可 以 通过 “图 灵 社 区 ”本 书页 面 ( http://www.ituring.com.cn/book/1989 ) 下 载 书 
中 示例 代码 。 
上 述 代码 输出 如 下 。 
Plot1 Plot2 
ee 
x1 x2 
Plot3 Plot4 











6 8 10 
































可 以 看 到 , Plot 1 中 呈现 的 是 真正 的 线性 关系 , Plot 2 是 一 条 曲线 , Plot 3 有 一 个 危险 的 离 群 点 ， 
Plot 4 则 完全 被 离 群 点 “ 拐 跑 了 ”。 看 到 了 吧 , 这 就 是 一 则 警世 恒 言 , 说 明了 仅 看 相关 性 有 多 么 危险 。 








业务 理解 

我 们 的 第 一 个 例子 重点 关注 的 是 预测 怀俄明 州 蛇 河 流域 的 水 量 ( 以 英寸 为 计量 单位 )， 它 是 
年 度 降 雪 含水 量 的 一 个 函数 。 这 项 预测 有 助 于 管理 水 流量 和 蕾 水 量 ,因为 蛇 河 是 美国 西部 几 个 州 
农 牧场 灌溉 用 水 的 主要 来 源 。 数 据 集 snake 可 以 在 at3 包 中 找到 (注意 ，alr 表 示 实 用 线性 回归 ): 
































> install.packages ("alr3") 
> library (alr3) 
> datal(snake) 
> dim(snake) 
[1] 17 2 
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X Y 
1 23.1 10.5 
2 32.8 16.7 
3 31.8 18.2 
4 32.0 17.0 
5 30.4 16.3 
6 24.0 10.5 





既然 我 们 有 了 17 行 观测 值 , 下 面 可 以 进行 数据 探索 了 。 别 急 , 先 将 X 和 7Y 换 成 有 意义 的 变量 名 ， 
如 下 所 示 : 
> names(snake) <- cl("content", "yield") 


> attach(snake) # attach data with new names 
> head (snake) 


content yield 
23.1 10. 


au 必 wN PP 
Ww 
D 
ee 
OO 
户 
S 
wm w 口 ~ u 


> plot (content, yield, xlab = "water content of 
snow", ylab = "water yield") 


上 述 代码 输出 如 下 。 





Scatterplot of Snow vs. Yield 





water yield 
20 25 
1 
© 
0 


15 


10 
0 
0 
0 











20 30 40 50 








water content of snow 
这 张 图 很 有 意思 , 它 的 数据 是 线性 的 ， 因为 被 最 前 端 和 最 后 端的 两 个 疑似 离 群 点 影响 ， 有 一 
点 轻微 的 曲线 形状 。 所 以 ， 有 必要 进行 数据 转换 并 删除 无 关 观 测 值 。 
R 使 用 1m() 函数 进行 线性 回归 ，1m() 可 以 建立 一 个 标准 形式 的 回归 模型 fit = lIm(7~ 了 。 建 立 
模型 之 后 ， 你 可 以 对 拟 合 模 型 使 用 各 种 函数 ， 以 检验 自己 的 假设 。 代 码 如 下 : 
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> yield.fit <- lm(yield ~ content) 


> summary (yield.fit) 


Call: 
lm(formula = yield ~ content) 





Residuals: 
Min 1Q Median 3Q Max 
-2.1793 -1.5149 -0.3624 1.6276 3.1973 


Coefficients: Estimate Std. Error t value Pr(>|t|) 
(Intercept) 0.72538 1.54882 0.468 0.646 
content 0.49808 0.04952 10.058 4.63e-08 


kw** 


Signif. codes: 0 '***'! 0.001 '**' 0.01 '*' 0.05 
0 


Residual standard error: 1.743 on 15 degrees of 


freedom 

Multiple R-squared: 0.8709, Adjusted R-squared: 
0.8623 

F-statistic: 101.2 on 1 and 15 DF, p-value: 
4.632e-08 


通过 summary () 函数 , 我 们 可 以 查看 模型 包含 的 一 些 项 目 ， 比 如 模型 具体 参数 、 关 于 残 差 的 
描述 性 统计 量 、 系 数 、 模 型 显著 性 代码 、 模 型 误差 和 拟 合 程度 的 摘要 。 现 在 ， 让 我 们 重点 关注 对 
于 相关 系数 这 个 参数 的 估计 , 看 一 下 我 们 的 预测 变量 是 否 具 有 显著 的 p 值 , 以 及 整个 模型 的 F 检 验 
是 否 具有 显著 的 p 值 。 请 看 参数 估计 ， 模 型 告诉 我 们 ，yiela 等 于 0.72538 加 上 0.49808 乘 以 
content。 可 以 确定 ，content 每 变动 1 个 单位 ， yield 会 增加 0.49808 个 单位 。 F 统 计量 是 用 来 检 
验 原 假设 的 ， 原 假设 认为 模型 的 所 有 系数 都 是 0。 


因为 p 值 是 高 度 显 著 的 ， 所 以 我 们 可 以 拒绝 原 假设 。 接 下 来 看 content 变 量 的 检验 值 ， 原 假 
设 认为 它 应 该 是 9， 我 们 叉 一 次 拒绝 了 原 假 设 。 此 外 ， 还 可 以 看 一 下 Multiple R-squared 和 
Adjusted R-squared 的 值 。 我 们 将 在 多 变量 回归 部 分 讨论 Adjusteqd R-squared， 所 以 先 关 
注 Multiple R-squared， 它 的 值 为 0.8709。 理 论 上 ，Multiple R-squared 的 取 值 范围 在 0 和 
1 之 间 ， 用 来 表示 X 和 7 的 相关 程度 。 在 本 例 中 ， 它 的 意义 是 水 量 87% 的 方差 可 以 被 降雪 含水 量 解 
释 。 顺 便 说 一 句 ，R 平 方 项 就 是 [X, 习 的 相关 系数 的 平方 。 


再 回 到 散 点 图 。 可 以 用 下 面 的 代码 为 散 点 图 加 上 一 条 由 模型 产生 的 最 佳 拟 合 直 线 。 























































































































> plot(content, yield) 


> abline(yield.fit, lwd=3, col="red") 


代码 输出 如 下 。 
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content 








线性 回归 必须 通过 假设 检验 ， 其 中 的 假设 可 以 总 结 如 下 。 























口 线性 : 预测 变量 与 响应 变量 之 间 的 关系 是 线性 的 。 如 果 线 性 关系 不 能 清晰 呈现 ， 可 以 对 

变量 X 或 7 进行 数据 转换 ( 对 数 转换 、 多 项 式 转换 、 指 数 转 换 等 ) 以 解决 问题 。 

口 误差 不 相关 : 在 时 间 序列 和 面板 数据 中 , e,= beta, -是 一 个 常见 问题 ; 如 果 误 差 是 相关 的 ， 

那么 你 就 有 可 能 建立 一 个 非常 不 规范 的 模型 。 

口 同方 差 性 : 误差 是 正 态 分 布 的 ， 并 具有 相同 的 方差 。 这 意味 着 对 于 不 同 的 输入 值 ， 误 差 
的 方差 是 个 固定 值 。 如 果 违 背 了 这 个 假设 ， 参 数 估计 就 有 可 能 产生 偏差 ， 导 致 对 显著 性 
的 统计 检验 结果 过 高 或 者 过 低 ， 从 而 得 到 错误 的 结论 。 这 种 情况 就 称 为 异 方差 性 。 

口 非 共 线性 : 两 个 预测 变量 之 间 不 存在 线性 关系 ， 也 就 是 说 ， 特 征 之 间 不 应 该 存在 相关 性 。 

同样 地 ， 共 线性 也 会 导致 估计 偏差 。 

口 存在 异常 值 : 异常 值 会 严重 影响 参数 估计 。 理 想 情况 下 ， 必 须 在 使 用 线性 回归 拟 合 模型 

之 前 就 除去 异常 值 。 正 如 我 们 在 Anscombe 数 据 集 那个 例子 中 看 到 的 ， 异 常 值 也 会 导致 具 

有 偏差 的 估计 结果 。 


因为 我 们 建立 的 单 变量 模型 与 时 间 不 相关 ， 所 以 只 须 关注 线性 和 蜡 方差 性 。 在 下 一 节 中 , 其 
他 假设 会 变 得 重要 。 对 假设 进行 初步 检验 的 最 好 方式 就 是 画 统计 图 。plot ( ) 函数 结合 线性 模型 ， 
可 以 自动 生成 4 张 统计 图 ,帮助 我 们 进行 假设 检验 。R 会 一 次 性 生成 这 些 图 , 你 可 以 通过 回 车 键 进 
行 切 换 。 最 好 的 方式 是 同时 查看 这 4 张 图 ， 我 们 通过 以 下 方式 实现 : 
















































































> par (mfrow = c(2,2)) 
> plot (yield.fit) 


上 述 代码 输出 如 下 。 
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左边 的 两 张 图 供 我 们 检查 误差 的 同方 差 性 和 非 线性 。 我 们 期 望 能 发 现 某 种 模式 ,或 者 更 重要 























的 是 , 不 存在 任何 模式 。 在 样本 大 小 只 有 17 个 观测 值 的 情况 下 ,不 会 看 到 什么 明显 的 模式 。 误 差 
的 异 方差 性 通常 会 表现 为 U 形 曲线 或 反 U 形 曲线 ， 也 可 能 会 紧密 聚集 在 图 的 左 侧 ， 随 着 拟 合 值 的 
增加 逐渐 变 宽 (漏斗 形 )。 我 们 完全 可 以 断定 ， 模 型 明显 没有 违背 同方 差 性 假设 。 


右上 角 的 正 态 Q-Q 图 可 以 帮助 我 们 确定 残 差 是 否 服 从 正 态 分 布 。 分 位 数 -分 位 数 图 表示 一 个 
变量 的 分 位 数 对 应 于 男 一 个 变量 的 分 位 数 画 出 的 图 ， 从 图 中 可 以 看 出 有 离 群 点 (第 7、9、10 个 观 
测 ), 这 可 能 违反 假设 。 残 差 栓 杆 图 可 以 告诉 我 们 哪个 观测 值 ( 如 果 有 ) 会 对 模型 造成 过 度 影 响 ， 
换 句 话说 ,是 否 存 在 我 们 应 该 关注 的 异常 值 。 鉴 别 强 影 响 点 的 统计 量 是 库 克 距离 ,一 般 认为 ,如 
果 这 个 统计 量 的 值 大 于 1， 就 需要 进行 更 深入 的 检查 。 


那么 到 底 该 如 何 进行 呢 ? 这 既是 科学 ， 又 是 艺术 。 最 简单 的 方法 就 是 直接 删除 观测 值 , 在 本 
例 中 我 们 可 以 删除 第 9 个 观测 值 ， 然 后 重新 构造 模型 。 但 更 合理 的 选择 是 ， 转 换 预 测 变量 或 响应 
变量 的 形式 。 如 果 仅 仅 删除 第 9 个 观测 值 , 那么 第 10 个 与 第 13 个 观测 值 就 可 能 因为 库 克 上 距离 大 于 1 
而 落 到 正常 区 间 之 外 。 我 相信 ， 这 就 是 领域 专家 的 用 武之 地 。 我 无 数 次 地 发 现 ， 对 异常 值 的 研究 
和 理解 可 以 得 到 非常 有 价值 的 知识 。 当 我 们 第 一 次 查看 前 面 的 散 点 图 时 , 我 曾经 指出 几 个 疑似 离 
群 点 ， 恰 巧 就 是 第 9 个 和 第 13 个 观测 值 。 作 为 一 名 分 析 师 ， 非 常 重要 的 一 点 就 是 要 经 常 与 相关 主 
题 专 家 进行 讨论 ,以 弄 清 为 什么 会 出 现 这 种 情况 。 是 测量 出 现 了 错误 ?还 是 对 这 些 观 测 值 有 更 合 
理 的 解释 ? 我 当然 给 不 出 答案 , 但 这 肯定 可 以 给 你 的 组 织带 来 更 大 价值 。 


这 个 话题 先 谨 到 此 ， 下 面 对 现 有 模型 做 更 深 一 步 的 研究 ， 看 看 正 态 Q-Q 图 的 更 多 细 方 。R 在 
缺 省 的 Q-Q 图 上 没有 提供 置信 区 间 ， 但 仔细 查看 基础 Q-Q 图 后 ,我们 认为 有 必要 检查 置信 区 间 。 
car 包 中 的 qqPlot () 函数 可 以 自动 提供 置信 区 间 ， 因 为 car 包 与 alr3 包 是 一 起 加 载 的 ， 所 以 可 以 用 
一 行 代码 生成 所 需 统计 图 ， 如 下 所 示 : 

> qqPlot (yield.fit) 


上 述 代 码 输 出 如 下 。 
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Studentized Residuals(yield fit) 
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tQuantiles 


如 图 所 示 , 残 差 服从 正 态 分 布 。 我 认为 , 这 可 以 使 我 们 更 有 信心 选择 使 用 所 有 观测 值 拟 合 的 
模型 。 改进 模 型 时 , 需要 清晰 理智 的 思考 和 判断 。 如 果 我 们 明确 拒绝 了 误差 正 态 分 布 假设 , 那么 
就 应 该 考虑 进行 变量 转换 和 删除 观测 值 。 























2.2 多 变量 线性 回归 


你 可 能 正在 拉 心 自问 ,在 现实 世界 中 , 一 个 预测 变量 真 的 够 用 吗 ? 这 确实 是 一 个 好 问题 ,而 
且 一 个 变量 在 大 多 数 情 况 下 确实 不 够 (时间 序列 通常 是 一 个 例外 )。 更 可 能 的 情况 是 ， 模 型 中 不 
得 不 引入 多 个 ( 如 果 不 是 许多 ) 预测 变量 一 一 或 特征 ， 机 咒 学 习 中 更 喜欢 使 用 这 个 名 词 。 我 们 下 
面 将 讨论 多 变量 线性 回归 ， 并 开始 一 个 新 的 商业 案例 。 





























2.2.1 业务 理解 


我 们 的 主题 还 是 水 域 保护 和 预测 ， 使 用 alr3 包 中 的 另 一 个 数据 集 ， 名 字 是 water。2014 年 ， 美 
国 南 加 利 福 尼 亚 严 重 的 旱灾 引起 了 很 大 关注 ,其 至 连 加 州 州长 杰 瑞 布朗 都 采取 了 行动 ， 呼吁 市 
民 将 用 水 量 减少 20%。 在 这 个 练习 中 ,假设 我 们 被 加 州 政府 委托 预测 水 的 可 用 性 。 提 供给 我 们 的 
数据 包含 43 年 的 降雪 量 ， 收 集 自 欧文 斯 山谷 的 6 个 不 同 地 点 。 数 据 集中 还 有 一 个 表示 水 的 可 用 性 
的 响应 变量 一 一 加 州 毕 绍 普 市 附近 的 河川 径流 量 , 这 些 流量 被 引入 欧文 斯 山谷 的 引水 渠 , 最 后 流 
入 洛杉矶 引水 渠 。 对 径流 量 的 精确 预测 可 以 使 工程 师 、 规 划 者 和 政策 制定 者 更 有 效 地 制定 水 域 保 
护 措施 。 我 们 要 建立 的 模型 形式 是 Y= Bo+ Bix1+… + Bx,+e， 预 测 变 量 (特征 ) 可 以 有 1 ~ nm 个 。 



























































2.2.2 ”数据 理解 和 数据 准备 
为 开始 这 一 步 ， 我 们 加 载 名 为 water 的 数据 集 ， 并 用 str () 函数 查看 其 结构 。 如 下 所 示 : 


> data (water) 





> str(water) 
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'data.frame': 43 obs. of 8 variables: 
$ Year : int 1948 1949 1950 1951 1952 1953 1954 
1955 1956 1957 ... 
$ APMAM : num 9.13 5.28 4.2 4.6 7.15 9.7 5.02 6.7 
T0595 
$ APSAB : num 3.58 4.82 3.77 4.46 4.99 5.65 1.45 
7.44 5.85 6.13 ... 
$ APSLAKE: num 3.91 5.2 3.67 3.93 4.88 4.91 1.77 
6.51 3.38 4.08 ... 
OPBPC : num 4.1 7.55 9.52 11.14 16.34 ... 
OPRC : num 7.43 11.11 12.2 15.15 20.05 ... 
OPSLAKE: num 6.47 10.26 11.35 11.13 22.81 ... 
BSAAM : int 54235 67567 66161 68094 107080 
67594 65356 67909 92715 70024 ... 


我 们 有 8 个 特征 ,其 中 BSAAM 是 响应 变量 。 观 测 值 始 于 1943 年 ， 并 不 间断 地 进行 了 43 年 。 因 
为 我 们 不 关心 观测 发 生 在 哪 一 年 , 所 以 应 该 建立 一 个 新 的 数据 框 ， 去 掉 年 份 向 量 。 这 做 起 来 非常 
简单 ， 用 一 行 代码 即 可 建立 新 的 数据 框 ， 然 后 用 heaa () 函数 检验 结果 是 否 正确 。 如 下 所 示 : 





wu 











> socal.water <- water[ ,-1] #new dataframe with 
the deletion of 
column 1 


> head(socal .water) 
APMAM APSAB APSLAKE OPBPC OPRC OPSLAKE BSAAM 


1 9.13 3.58 3.91 4.10 7.43 6.47 54235 
2 5.28 4.82 5.20 7.55 11.11 10.26 67567 
3 4.20 3.77 3.67 9.52 12.20 11.35 66161 
4 4.60 4.46 3.93 11.14 15.15 11.13 68094 
5 7.15. :4.99 4.88 16.34 20.05 22.81 107080 
6 9.70 5.65 4.91 8.88 8.15 7.41 67594 





既然 所 有 特征 都 是 数值 型 的 ， 那 么 就 应 该 检查 相关 性 方面 的 统计 量 ， 并 绘 出 散 点 图 和 矩阵。 
相关 系数 又 称 Pearson?sr， 可 以 用 来 测量 两 个 变量 之 间 线 性 相关 性 的 强度 和 方向 。 这 个 统计 量 
是 一 个 数值 ， 取 值 在 -1 和 1 之 间 ，-1 表 示 完 全 负 相 关 ，+1 表 示 完 全 正 相 关 。 要 计算 相关 系数 ， 
需要 使 用 两 个 变量 的 协 方差 除 以 它们 的 标准 差 的 乘积 。 前 面 说 过 ， 如 果 取 相关 系数 的 平方 ， 就 
可 以 得 到 R 方 。 


有 很 多 方式 可 以 做 出 相关 性 矩阵 图 。 有 些 人 喜欢 做 热点 图 , 但 是 我 强烈 推荐 使 用 corrplot 包 做 
图 ， 它 可 以 用 很 多 方式 表示 相关 系数 之 间 的 差异 ， 包 括 椭圆 、 圆 、 正 方形 、 数 字 、 阴 影 、 颜 色 和 
饼 图 。 我 更 喜欢 椭圆 ， 当 然 也 不 反对 你 试 试 其 他 方式 。 下 面 加 载 corrplot 包 ， 使 用 基础 的 cor () 
函数 建立 一 个 相关 性 对 象 ， 然 后 看 看 结果 。 如 下 所 示 : 
























































> 1ibrary(corrp1lLot) 


> water.cor <- cor(socal .water) 


> water.cor 
APMAM APSAB APSLAKE OPBPC 
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APMAM 1.0000000 0.82768637 0.81607595 0.12238567 
APSAB 0.8276864 1.00000000 0.90030474 0.03954211 
APSLAKE 0.8160760 0.90030474 1.00000000 0.09344773 
OPBPC 0.1223857 0.03954211 0.09344773 1.00000000 
OPRC 0.1544155 0.10563959 0.10638359 0.86470733 
OPSLAKE 0.1075421 0.02961175 0.10058669 0.94334741 
BSAAM 0.2385695 0.18329499 0.24934094 0.88574778 
OPRC OPSLAKE BSAAM 
APMAM 0.1544155 0.10754212 0.2385695 
APSAB 0.1056396 0.02961175 0.1832950 
APSLAKE 0.1063836 0.10058669 0.2493409 
OPBPC 0.8647073 0.94334741 0.8857478 
OPRC 1.0000000 0.91914467 0.9196270 
OPSLAKE 0.9191447 1.00000000 0.9384360 
BSAAM 0.9196270 0.93843604 1.0000000 


出 什么 ? 首先 ， 响 应 变量 与 那些 OP 开头 的 特征 高 度 正 相关 ， 与 OPBPC 的 相关 系数 是 
0.88$7， 与 OPRC 的 相关 系数 是 0.9196， 与 OPSLAKE 的 相关 系数 是 0.9384。 还 可 以 看 出 ，AP 开 头 
的 特征 彼此 之 间 高 度 相 关 ，OP 开 头 的 也 是 如 此 。 这 意味 着 我 们 会 遇 到 多 重 共 线性 的 问题 。 相 关 
生 和 矩阵 图 可 以 用 漂亮 的 可 视 化 方式 表示 相关 性 。 如 下 所 示 : 
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> corrplot (water.cor, method = "ellipse") 


上 述 代码 片段 输出 如 下 。 
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另外 一 种 常用 的 可 视 化 方式 是 散 点 图 矩阵 , 可 以 通过 调用 pairs () 函数 来 实现 。 它 可 以 使 我 





们 看 到 比 前 面 的 相关 性 矩阵 图 更 多 的 信息 : 
> pairs(~ ., data = Socal.water) 


述 代码 片段 输出 如 下 。 
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2.2.3 ”模型 构建 与 模型 评价 


本 节 要 讨论 的 一 个 关键 问题 就 是 特征 选择 , 这 个 任务 特别 重要 。 在 本 章 中 , 我 们 要 讨论 最 优 
子 集 回归 和 逐步 回归 方法 ,使 用 leaps 包 。 后 面 的 章节 会 涉及 更 高 级 的 技术 。 


前 向 逐步 选择 从 一 个 零 特 征 模型 开始 ,然后 每 次 添加 一 个 特征 ,直到 所 有 特征 添加 完毕 。 在 



































这 个 过 程 中 ,被 添加 的 选 定 特征 建立 的 模型 具有 最 小 的 RSS。 所 以 理论 上 ， 第 一 个 选 定 的 特征 应 
该 能 最 好 地 解释 响应 变量 ， 依 此 类 推 。 


OP 添加 一 个 特征 一 定 会 使 RSS 减 少 ， 使 R 方 增加 ， 但 不 一 定 能 提高 模型 的 拟 合 度 和 
可 解释 性 。 


后 向 逐步 回归 从 一 个 包含 所 有 特征 的 模型 开始 , 每 次 删除 一 个 起 最 小 作用 的 特征 。 现 在 也 有 
一 种 混合 方法 , 这 种 算法 先 通过 前 向 逐步 回归 添加 特征 , 然后 检查 是 否 有 特征 不 再 对 提高 模型 拟 
合 度 起 作用 ,如果 有 则 删除 。 每 次 建 模 之 后 , 分 析 者 都 可 以 检查 模型 输出 ， 并 使 用 各 种 统计 量 选 
择 能 提供 最 佳 拟 合 的 特征 。 


这 里 我 要 给 出 一 个 重要 提示 ， 逐 步 回 归 拉 术 会 遇 到 非常 严重 的 问题 。 对 于 一 个 数据 集 ， 你 先 
用 前 向 逐步 回归 ,然后 再 用 后 向 逐步 回归 , 可 能 会 得 到 两 个 完全 矛盾 的 模型 。 最 重要 的 一 点 是 , 逐 
步 回归 会 使 回归 系数 发 生 偏离 , 换 句 话说 ,会 使 回归 系数 的 值 过 大 ,置信 区 间 过 罕 ( Tibrishani, 1996 )。 


对 于 特征 选择 ， 最 优 子 集 回归 是 逐步 回归 的 一 个 可 接受 的 蔡 代 方案 。 在 最 优 子 集 回 归 中 , 算 
法 使 用 所 有 可 能 的 特征 组 合 来 拟 合 模型 ， 所 以 ， 如 果 有 3 个 特征 ,将 生成 7 个 模型 。 然 后 和 逐步 回 
归 一 样 ,分 析 者 需要 应 用 自己 的 判断 和 统计 分 析 来 选择 最 优 模型 ,模型 选择 就 是 后 面 工作 的 关键 。 
正如 你 猜想 的 那样 ， 如 果 数 据 集 有 多 个 特征 ， 工 作 量 就 会 非常 大 。 当 特征 数 多 于 观测 数 时 (p 大 
于 n )， 这 个 方法 的 效果 就 不 会 好 。 

































































第 2 章 器 


22 线性 回归 : 机 


学 习 基 础 技术 








当然 , 这 些 对 于 最 优 子 集 法 的 限制 不 
们 放弃 逐步 回归 。 当 然 ,你 完全 可 以 试 试 。 首先 加 载 leaps 包 。 为 了 查看 特 和 





先 用 所 有 特征 建立 和 检查 模型 ， 然 后 逐 


要 想 使 用 所 有 特征 











3 十 十 xn)o。 一 个 简单 的 技巧 是 ， 如 果 你 想 包括 所 有 特征 
而 不 用 把 它们 全 打出 来 。 对 于 初学 者 来 说 ， 我 们 要 加 载 leaps 包 ， 建 立 一 个 包含 所 有 特 生 


进行 研究 ， 如 下 所 示 : 


> library (leaps) 


八国 
会 影 


出 条 件 ,我 
我 们 


响 我 们 现在 要 做 的 工作 ， 基 于 现 有 的 限 
F 选 择 如 何 进行 ， 


渐 深入 ， 使 用 最 优 子 集 法 选择 最 优 的 拟 合 。 


























FE 构建 线 性 模型 ， 仍 然 可 以 使 用 lm ( ) 函数 。 模 型 形式 为 fit= Im Gxi +x2 十 


E， 只 要 在 波形 符号 后 面 加 一 个 句号 ， 
FE 的 模型 

















> fit <- lm(BSAAM ~ ., data = socal.water) 
> summary (fit) 
Call: 
lm(formula = BSAAM ~ ., data = socal .water) 
Residuals: 

Min 1Q Median 3Q Max 
-12690 -4936 -1424 4173 18542 
Coefficients: 


Estimate Stad. 


Error 七 Value Pr(>|t|) 


(Intercept) 15944.67 4099.80 3.889 0.000416 
炎炎 类 
APMAM -12.77 708.89 -0.018 0.985725 
APSAB -664.41 1522.89 -0.436 0.665237 
APSLAKE 2270.68 1341.29 1.693 0.099112 . 
OPBPC 69.70 461.69 0.151 0.880839 
OPRC 1916.45 641.36 2.988 0.005031 ** 
OPSLAKE 2211.58 752.69 2.938 0.005729 ** 
Signif. codes: 0 '***'! 0.001 '**' 0.01 '*' 0.05 
0. I 
Residual standard error: 7557 on 36 degrees of 
freedom 
Multiple R-squared: 0.9248, Adjusted R-squared: 
0.9123 
F-statistic: 73.82 on 6 and 36 DF, p-value: < 
2.2e-16 





与 单 变 量 回归 一 样 ， 我 们 要 检查 F 统 计量 的 p 值 ， 以 检验 是 否 至 少 有 一 个 非 零 系数 。 确 实 ,，P 








值 是 高 度 显 著 的 。 还 可 以 看 到 ，OPRC 和 OPSLAKI 





E 这 两 个 参数 具有 显著 的 p 值 。 有 趣 的 是 ，OPBPC 











四 导语 


之 里 [可 


并 不 显著 , 尽管 它 与 响应 





对 预测 方差 提供 任何 有 意义 的 解释 。 这 就 是 说 , 模型 中 存在 OPRC 和 OPSLARI 


计 学 角度 来 看 没有 任何 作用 。 


建立 初始 模型 之 后 ， 使 用 最 优 子 集 





度 相关 。 简 言 之 ， 当 我 们 控制 其 他 OP 开头 的 特征 时 ，OPBPC 无 法 


时 ,特征 OPBPC 从 统 








法 。 我 们 使 用 leaps 包 中 的 regsupsets () 函数 建立 一 个 
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sub.fit 对 象 。 如 下 所 示 : 


> sub.fit <- regsubsets(BSAAM ~ ., data = 
socal .water) 


这 样 就 生成 了 best .summary 对 和 象 ， 帮 助 我 们 更 深入 地 人 研究 模型 。 对 于 R 中 的 所 有 对 象 ， 都 | 
可 以 使 用 names () 函数 列 出 输出 结果 。 如 下 所 示 : 





> best .summary <- summary (sub.fit) 


> names (best .Summary) 
3 nwhich" "rsq" "rss" "adj r2 mn We 
"bicn noutmatn "obj 


其 他 对 于 模型 选择 有 价值 的 函数 还 有 which.min() 和 which.max()， 它 们 分 别 给 出 具有 某 
个 输出 的 最 小 值 和 最 大 值 的 模型 ， 如 下 代码 片段 所 示 : 


> which.min(best.summarys$rss) 
[1] 6 


以 上 代码 告诉 我 们 ， 有 6 个 特征 的 模型 具有 最 小 的 RSS。 本 应 如 此 ， 因 为 它 有 最 多 的 输入 ， 
输入 越 多 ，RSS 越 小 。 请 注意 ， 增 加 特征 必然 会 减少 RSS1! 而 且 必 然 会 增加 R 方 。 我 们 可 以 添加 
一 个 完全 不 相关 的 特征 ， 比 如 洛杉矶 湖人 队 的 胜 场 数 ，RSS 也 会 减少 ，R 方 也 会 增加 。 变 动 值 可 
能 微不足道 ,但 聊 胜 于 无 。 看 来 ， 我们 需要 一 种 切实 有 效 的 方法 来 恰当 地 选择 相关 特征 。 

本 章 将 讨论 4 种 用 于 特征 选择 的 统计 方法 : 赤 池 信息 量 准 则 、 马 洛斯 的 Cp 、 贝 叶 斯 信息 量 
准则 和 修正 R 方 。 前 三 种 方法 的 目标 是 追求 统计 量 的 值 最 小 化 , 修正 R 方 的 目标 是 追求 统计 量 的 
值 最 大 化 。 这 些 统计 方法 的 目的 是 建立 一 个 尽 可 能 简约 的 模型 ， 换 名 话说 ， 要 对 模型 复杂 性 进 


行 “ 惩 罚 "。 


上 述 4 种 统计 量 的 公式 如 下 。 




































































RSS 国 i 
口 Ac |， P 为 被 检验 模型 中 的 特征 数量 。 


n 














RSS 
DCP = GE 和 -2+ 2* 忆 ，D 为 被 检验 异型 中 的 特征 数量 ，MSE/ 是 包含 所 有 特征 的 模型 误差 
f 
的 平方 均值 ( 均 方 误差 )，n 为 样本 大 小 。 
RSS 
口 BIC = oa 忆 上 mm ，p 为 被 检验 模型 中 的 特征 数量 ，n 为 样本 大 小 。 


n 




















9 个 FER 方 1-[ 了 | ]，p 为 被 检验 模型 中 的 特征 数量 ，n 为 样本 大 小 








在 线性 模型 中 ，AIC 和 Cp 成 正比 ， 所 以 我 们 只 需 关 注 Cp， 在 leaps 包 的 输出 中 可 以 找到 它 。 
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BIC 与 Cp 相 比 ， 更 倾向 于 选择 变量 较 少 的 模型 ， 所 以 我 们 要 对 二 者 进行 比较 。 为 此 ， 生 成 两 张 并 
列 的 统计 图 进行 分 析 。 使 用 下 面 的 代码 片段 比较 Cp 和 BIC: 





> par(mfrow = c(1,2)) 


> plot (best.summary$cp, xlab = "number of 
features", ylab = "cp") 
> plot(sub.fit, scale = "Cp") 


上 述 代码 片段 输出 如 下 。 
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number offeatures 




















在 左 侧 的 图 中 ， 可 以 看 出 有 3 个 特征 的 模型 具有 最 小 的 Cp 值 。 在 右 侧 的 图 中 ， 显 示 了 能 给 出 
最 小 Cp 的 特征 组 合 。 这 张 图 应 该 这 么 看 : 先 在 Y 轴 的 最 高 点 找到 最 小 的 Cp 值 ， 此 处 是 1.2; 然后 
向 右 在 X 轴 上 找到 与 之 对 应 的 色 块 。 通 过 这 张 图 ， 我 们 可 以 看 到 这 个 具有 最 小 Cp 值 的 模型 中 的 3 
个 特征 是 APSLAKE 、OPRC 和 OPSLAKE。 通 过 which.min() 和 which.max() 函数 ,我 们 可 以 
进行 Cp 与 BIC 和 修正 R 方 的 比较 。 









































> which.min(best.summarys$bic) 
[1] 3 


> which.max(best.summarys$adjr2) 
[1] 3 
可 以 看 出 ， 在 本 例 中 ，BIC、 修 正 R 方 和 Cp 选择 的 最 优 模 型 是 一 臻 的。 现在， 与 单 变 量 线性 
回归 一 样 , 我 们 需要 检查 模型 并 进行 假设 检验 。 正 像 之 前 做 的 那样 , 我们 需要 生成 一 个 线性 模型 
对 象 并 检查 统计 图 。 如 下 所 示 : 
> best.fit <- lm(BSAAM ~ APSLAKE + OPRC + OPSLAKE, 


data = 
socal .water) 














> summary (best .fit) 
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Call: 


lm(formula = BSAAM ~ APSLAKE + OPRC + OPSLAKE) 


Residuals: 
Min 
-12964 


1Q Median 3Q Max 
-5140 -1252 4446 18649 


Coefficients: 


Estimate Std. Error t value 

(Intercept) 15424.6 3638.4 4.239 
类 大 类 

APSLAKE 43741255 500.5 3.421 

OPRC 1797.5 567.8 3.166 

OPSLAKE 2389.8 447.1 5.346 
类 大 类 

Signif. codes: 0 '***'! 0.001 '**' 0.01 

A i 


Residual standard error: 


freedom 

Multiple R-squared: 0.9244, 
0.9185 

F-statistic: 158.9 on 3 and 39 DF, 


2.2e-16 


Pr(>|It|) 
0.000133 


0.001475 ** 


0.002998 ** 
4.19e-06 


?005 


7284 on 39 degrees of 


Adjusted R-squared: 


p-value: < 


在 这 个 三 特征 模型 中 ，F 统 计量 和 所 有 ;检验 都 具有 显著 的 p 值 。 通 过 了 第 一 个 检验 ， 我 们 即 


可 生成 诊断 图 ， 如 下 所 示 : 
> par(mfrow = c(2,2)) 
> plot (best .fit) 


上 述 代码 片段 输出 如 下 。 
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通过 这 4 张 图 ， 我 们 完全 可 以 认为 ， 残 差 具有 固定 的 方差 并 且 服 从 正 态 分 布 。 杠 杆 图 中 也 没 
有 什么 需要 我 们 进一步 处 理 的 异常 。 


为 了 研究 共 线 性 的 问题 ， 我 们 要 引入 方差 膨胀 因子 这 个 统计 量 。VIF 是 一 个 比率 ， 分 子 为 使 
用 全 部 特征 拟 合 模型 时 该 特征 的 系数 的 方差 , 分 母 为 仅 使 用 该 特征 拟 合 模型 时 这 个 特征 的 系数 的 
方差 。 计算 公 式 为 1/(1-R?) ， 其 中 R? 为 以 第 i 个 特征 作为 响应 变量 ， 其 余 所 有 特征 作为 解释 变 
量 进行 线性 回归 得 到 的 R 方 值 。VIF 能 取得 的 最 小 值 是 1， 表 示 根 本 不 存在 共 线 性 。 现 在 还 没有 一 
个 确定 的 准则 决定 共 线 性 的 严重 程度 , 一般 认 为 ，VIF 值 超过 5 (有 些 人 认为 是 10 ) 就 说 明 存在 严 
重 的 共 线 性 ( James ，p.101，2013 )。 我 们 难以 选 定 一 个 精确 的 阔 值 ， 因 为 没有 一 个 确定 的 统计 
学 标准 来 决定 多 重 共 线 性 什么 时 候 会 使 模型 变 得 不 可 接受 。 


car 包 中 的 vif () 函数 完全 可 以 计算 出 VIF 值 ， 参 见 下 面 的 代码 片段 : 


> vif(best.fit) 


















































APSLAKE OPRC OPSLAKE 
1.011499 6.452569 6.444748 


基于 相关 性 分 析 ， 我 们 发 现 OPRC 和 OPSLAKE 存 在 潜在 的 共 线 性 问题 (VIF 值 大 于 5 )， 这 也 
没什么 可 大 惊 小 怪 的 。 这 两 个 变量 的 关系 图 揭示 了 问题 的 根源 ， 参 见 下 面 的 屏幕 截图 。 


> plot(socal .water$OPRC, socal.water$OPSLAKE, xlab 


























= "OPRC", ylab = "OPSLAKE") 
\ 丰 人 人、 人 上 人 
上 述 命 令 输 出 如 下 。 
8 
RJ 
§ 
风 © 
G wj 0 
0 
有 9 
Ba. 
0° 
座 : 
T T T T T 
5 10 15 20 25 
OPRC 











解决 共 线 性 的 简单 方式 就 是 , 在 不 影响 预测 能 力 的 前 提 下 去 掉 这 个 变量 。 看 一 下 最 优 子 集 法 
中 生成 的 修正 R 方 的 值 就 会 发 现 ，APSLAKE 和 OPSLAKE 组 成 的 两 变量 模型 的 值 为 0.90， 加 入 
OPRC 之 后 仅 有 一 个 微不足道 的 提升 ， 到 了 0.92。 如 下 所 示 : 
> best.summary$adjr2 #adjusted r-squared values 


[1] 0.8777515 0.9001619 0.9185369 0.9168706 
0.9146772 0.9123079 
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看 一 下 这 个 两 变量 模型 及 其 假设 检验 结果 ， 如 下 所 示 : 
> fit.2 <- lm(BSAAM ~ APSLAKE+OPSLAKE, data = 
socal .water) 
> summary (fit.2) 
Call: 
lm(formula = BSAAM ~ APSLAKE + OPSLAKE) 
Residuals: 
Min 1Q Median 3Q Max 
-13335.8 -5893.2 -171.8 4219.5 19500.2 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 19144.9 3812.0 5.022 1.1e-05 
* 类 类 
APSLAKE 1768.8 553.7 3.194 0.00273 ** 
OPSLAKE 3689.5 196.0 18.829 < 2e-16 
炎炎 类 
Signif. codes: 0 '***'! 0.001 '**' 0.01 '*' 0.05 
eo ek ee 
Residual standard error: 8063 on 40 degrees of 
freedom 
Multiple R-squared: 0.9049, Adjusted R-squared: 
0.9002 
F-statistic: 190.3 on 2 and 40 DF, p-value: < 
2.2e-16 
> par (mfrow=c(2,2)) 
> plot (fit.2) 
上 述 代 码 片 段 输出 如 下 。 
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模型 是 显著 的 , 诊断 图 中 也 没 发 现 什么 问题 ， 共 线性 问题 应 该 得 到 了 解决 。 青 使 用 vif () 函 
数 检查 一 下 ， 如 下 所 示 ， 


> vif (fit.2) 





APSLAKE OPSLAKE 
1.010221 1.010221 


如 前 所 述 ， 我 不 认为 残 差 与 拟 合 图 会 有 什么 问题 。 如 果 你 不 相信 ， 可 以 用 R 对 误差 的 同方 
差 性 进行 正式 的 假设 检验 。 这 个 检验 称 为 Breusch-Pagan (BP ) 检验 。 要 想 做 这 个 检验 ， 需 要 
加 载 Imtest 包 , 然后 运行 一 行 代 码 。BP 检 验 的 原 假设 是 误差 方差 为 0， 对 应 的 备 择 假设 是 误差 方 
差 不 为 0。 














> library (lmtest) 
> bptest (fit.2) 


studentized Breusch-Pagan test 
data: fit.2 
BP = 0.0046, df = 2, p-value = 0.9977 


我 们 没有 证 据 拒 绝 认为 “误差 方差 为 0 的 原 假设 , 因为 p 值 = 0.9977。 检 验 结果 中 , BP= 0.0046 
是 一 个 卡 方 值 。 


所 有 的 事情 都 搞定 了 ,看 上 去 , 最 好 的 预测 模型 应 该 由 APSLAKE 和 OPSLAKE 两 个 特征 组 成 。 

个 模型 可 以 解释 河川 径流 量 的 90% 的 方差 。 为 预测 流量 ， 应 该 用 19 145 ( 截 距 ) 加 上 1769 乘 以 
ASLAKE 的 值 , 再 加 上 3690 乘 以 OPSLAKE 的 值 。 在 R 基 础 包 中 , 使 用 模型 拟 合 值 与 响应 变量 的 值 
可 以 生成 预测 值 相对 于 实际 值 的 散 点 图 。 如 下 所 示 : 

> plot (fit.2$fitted.values, socal.water$BSAAM, xlab 


= "predicted", ylab = "actual", main = "Predicted 
vs.Actual") 


上 述 代码 片段 输出 如 下 。 















































Predicted vs. Actual 
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尽管 很 有 信息 量 ， 但 R 的 基础 图 形 功能 依然 不 适用 于 商业 性 展示 。 但 在 R 中 ， 我 们 可 以 轻松 
美化 图 形 。 现 在 有 很 多 R 包 加 强 了 图 形 功能 ， 我 们 此 处 将 使 用 ggplot2。 生 成 统计 图 之 前 ， 必 须 将 
预测 值 放 入 数据 框 socal .water。 还 要 把 BSAAM 重 命名 为 Actual ， 并 在 数据 框 中 加 入 一 个 新 
的 向 量 ， 如 下 所 示 : 

















> socal.water["Actual"] = water$BSAAM #create the 
Vector Actual 


> Socal .waterS$Eorecast = predict (fit.2) #populate 
Forecast with the predicted values 


然后 加 载 ggplot2 包 ,使 用 一 行 代码 生成 一 个 更 漂亮 的 统计 图 : 





> library (ggplot2) 


> ggplot (socal .water, aes(x = Forecast, y = 


Actual)) + geom point() + geom smooth(method = 


lm) + labs(title = "Forecast versus Actuals") 


上 述 代码 片段 输出 如 下 。 





Forecast versus Actuals 
160000- 


120000- 


Actual 


80000- 





40000- 





60000 90000 
Forecast 


120000 150000 











继续 本 章 内 容 之 前 , 我 们 先 讨论 一 项 终极 的 模型 选择 技术 一 一 交 义 验证 。 交叉 验 证 用 于 模型 
选择 和 检验 ， 这 种 有 效 方法 得 到 了 广泛 应 用 。 交 又 验 证 为 什么 是 必须 的 ?这 还 要 归 因 于 偏差 / 方 
差 的 权衡 问题 。 美 国 莱 特 州立 大 学 的 塔 皮 教授 对 此 有 精彩 的 论述 : 











“我 们 经 常 使 用 回归 模型 预测 未 来 观测 值 。 我 们 用 数据 去 拟 合 模型 是 完全 可 以 的 ， 
但 如 果 用 来 预测 模型 响应 的 数据 和 用 来 估计 模型 的 数据 属于 同一 批 , 那么 说 预测 效果 有 
多 么 好 就 有 欺骗 的 嫌疑 了 。 在 评价 模型 对 未 来 观测 值 的 预测 效果 方面 ， 这样 做 往往 会 得 
到 过 于 乐观 的 结果 。 如 果 我 们 留 下 一 个 观测 值 ， 用 其 余 观 测 值 拟 合 模 型 ， 然 后 再 预测 这 
个 留 下 的 观测 值 ， 那 么 评价 模型 预测 效果 时 ， 得 到 的 结论 会 具有 更 少 偏差 。” 


二 化 会 
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塔 皮 教授 在 上 述 论述 中 提出 的 交叉 验证 技术 被 称 为 留 一 法 交 又 验证 。 在 线性 模型 中 , 你 可 以 
很 容易 地 进行 LOOCV， 检 测 预测 误差 平方 和 这 个 统计 量 ， 然 后 选择 具有 最 小 值 的 模型 即 可 。 有 R 
中 的 MPV 库 可 以 计算 这 个 统计 量 ， 代 码 如 下 : 


> library (MPV) 








> PRESS (best .fit) 
[1] 2426757258 


> PRESS (fit.2) 

[1] 2992801411 

如 果 仅 参考 这 个 统计 量 ， 我 们 应 该 选择 模型 best.fit。 但 如 前 所 述 ， 我 还 是 认为 更 简约 的 模型 
更 好 。 你 可 以 利用 简洁 优雅 的 矩阵 代数 ,自己 编写 一 个 简单 的 函数 来 计算 这 个 统计 量 ， 代 码 如 下 
所 示 : 





























> PRESS.best = sum((resid(best.fit)/(1 - 
hatvalues (best .fit)))^2) 


> PRESS.fit.2 = sum( (resid(fit.2)/(1 - 
hatvalues (fit.2)))^2) 


> PRESS.best 
[1] 2426757258 


> PRESS.fit.2 

[1] 2992801411 

你 可 能 会 问 ， 什 么 是 hatvalues( 帽子 值 ) ? 如果 你 有 一 个 线性 模型 7= Bo + Bix + e， 我 们 可 
以 将 其 转换 为 矩阵 表示 形式 : Y= XB + E。 在 这 种 表示 形式 下 ，7 保 持 不 变 ，X 是 输入 值 矩 阵 ，B 
是 系数 ，E 代 表 误 差 。 从 这 个 线性 模型 可 以 解 出 8B 的 值 。 不 用 进行 繁多 的 矩阵 乘法 运算 ， 回 归 过 
程 可 以 得 到 一 个 所 谓 幅 子 矩阵 。 这 个 和 矩 阵 将 模型 中 计算 的 值 映射 (或 称 “投影 ”) 到 实际 值 。 
此 ， 它 反映 了 一 个 特定 的 观测 值 在 模型 中 有 多 大 的 影响 力 。 所 以 ， 先 用 残 差 除 以 1 减 去 帽子 值 的 
差 ， 再 对 结果 求 平方 和 ， 最 后 就 可 以 得 到 与 LOOCV 相 同 的 结果 。 



























































2.3 线性 模型 中 的 其 他 问题 


进行 下 一 章 之 前 , 关于 线性 模型 还 有 两 个 额外 的 问题 需要 讨论 。 第 一 个 问题 是 如 何 使 模型 包 
含 定性 特征 ， 第 二 个 问题 是 如 何 处 理 交 互 项 。 











2.3.1 定性 特征 


定性 特征 经 常 被 称 为 “因子 ”， 它 可 以 有 两 个 或 更 多 个 水 平 ， 比 如 “ 男 / 女 ”或 “ 差 /中 /好 ”。 
如 果 我 们 有 一 个 具有 两 个 水 平 的 特征 ， 比 如 性 别 ， 那 么 可 以 建立 一 个 指标 ， 或 称 “虚拟 特征 ”。 
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任意 地 将 一 个 水 平 设 为 0， 另 一 个 水 平 设 为 1。 如 果 只 用 这 个 指标 建立 模型 ,那么 线性 模型 的 形式 
还 是 和 前 面 一 样 , 即 Y= Bo+ Bixz+e。 如果 对 特征 进行 编码 , 使 男 =0， 女 -1， 那么 当 特征 为 “ 男 ” 
时 ,模型 的 期 望 结果 就 是 截 距 Bo。; 当 特 征 为 “ 女 ” 时 ， 模 型 的 期 望 结果 就 是 Bo + Bix。 如 果 特 征 
的 水 平 多 于 两 个 ， 你 就 可 以 建立 mn - 1 个 指标 ; 所 以 3 个 水 平 需要 两 个 指标 。 如 果 你 建立 的 指标 数 
和 水 平 数 相同 ， 就 会 掉 和 人 虚拟 变量 陷阱 ， 导 致 完全 的 多 重 共 线性 。 


我 们 通过 一 个 简单 的 例子 学 习 如 何 解 释 输出 结果 。 加 载 I SLR 包 ， 使 用 Carseats 数 据 集 建立 一 
个 模型 ， 代 码 片段 如 下 : 


> library (ISLR) 


















































> data(Carseats) 


> str(Carseats) 


'data.frame': 400 obs. of 11 variables: 

$ Sales : num 9.5 11.22 10.06 7.4 4.15 ... 

$ CompPrice : num 138 111 113 117 141 124 115 136 
132. 132: .。。 

$ Income : num 73 48 35 100 64 113 105 81 110 
BLS ts 


$ Advertising: num 11 16 10 43 1301500 ... 

$ Population : num 276 260 269 466 340 501 45 425 
L108" 123. 二 

$ Price : num 120 83 80 97 128 72 108 120 124 
24 0s 


$ ShelveLoc : Factor w/ 3 levels 
"Bad","Good","Medium": 1 2331 
bP ee 
$ Age : num 42 65 59 55 38 78 71 67 76 76 


Education : num 17 10 12 14 13 16 15 10 10 17 


Ur 


$ Urban : Factor w/ 2 levels "No","Yes": 2 2 2 
2 


$ US : Factor w/ 2 levels "No","Yes": 2 2 2 
i ge i Ss 








在 这 个 例子 中 , 我 们 将 预测 Carseats 中 的 sales 变 量 , 仅 用 一 个 定量 特征 Advertising 和 一 个 定性 
特征 ShelveLoc。 定 性 特征 是 一 个 因子 ， 具 有 3 个 水 平 ， Bad、Good 和 Medium。 对 于 因子 ，R 会 在 
分 析 时 自动 对 指标 进行 编码 。 模 型 的 建立 和 分 析 如 下 所 示 : 


> sales.fit <- lm(Sales ~ Advertising + ShelveLoc, 
data = Carseats) 











> summary (sales.fit) 


Call: 
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lm(formula = Sales ~ Advertising + ShelveLoc, data = 
Carseats) 


Residuals: 
Min 1Q Median 3Q Max 
-6.6480 -1.6198 -0.0476 1.5308 6.4098 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 

(Intercept) 4.89662 0.25207 19.426 < 2e- 
16 类 火炎 

Advertising 0.10071 0.01692 5.951 5.88e- 
09 类 火炎 

ShelveLocGood 4.57686 0.33479 13.671 < 2e- 
16 类 火炎 

ShelveLocMedium 1.75142 0.27475 6.375 5.11e- 
10 炎炎 类 


Signif. codes: 0 '***'! 0.001 '**' 0.01 '*' 0.05 
Qe 


Residual standard error: 2.244 on 396 degrees of 


freedom 

Multiple R-squared: 0.3733, Adjusted R-squared: 
0.3685 

F-statistic: 78.62 on 3 and 396 DF, p-value: < 
2.2e-16 











截 距 的 值 是 4.89662， 如 果 货 架 位 置 好 ， 销 售 量 的 佑 计 值 几乎 是 货架 位 置 差 的 两 倍 。 如 果 想 
知道 R 如 何 对 指标 寺 征 进 行 编码 ， 可 以 使 用 contrasts () 函数 ， 如 下 所 示 : 














> contrasts(Carseats$ShelveLoc) 


Good Medium 


Bad 0 0 
Good 1 0 
Medium 0 1 


2.3.2 ”交互 项 


R 中 对 交互 项 的 处 理 也 很 容易 。 当 一 个 特征 的 预测 效果 依赖 于 男 一 个 特征 的 值 时 ， 这 两 个 特 
征 就 是 交互 作用 的 。 有 交互 项 的 模型 可 以 表示 为 Y= Bo+ Bixi+ Bxx2+ BI1Bxxix2;+e。MASS 包 中 提 
供 了 一 个 现成 的 例子 , 使 用 了 Boston 数 据 集 。 响 应 变量 为 房屋 价值 的 中 位 数 ， 用 medv 表 示 。 我 们 
用 两 个 特征 作为 预测 变量 ， 一 个 是 低 社 会 经 济 地 位 家 庭 百 分 比 ， 用 lstat 表 示 ; 一 个 是 房 龄 年 数 ， 
用 age 表示 。 代 码 及 输出 如 下 : 


> library (MASS) 












































> data (Boston) 
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> str(Boston) 





'data.frame': 506 obs. of 14 variables: 

$ crim : num 0.00632 0.02731 0.02729 0.03237 
0.06905 ... 

$ zn : num 18 00000 12.5 12.5 12.5 12.5 

$ Indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 


7.87 7.87 7.87 


$ chas : int 0000000000 ... 

$ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 
0.524 0.524 
0.524 0.524 ... 

$ rm : num 6 58, 6.42 :T7718 7 7715 

$ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 
96.1 100 85.9 

$ dis : Dum 4.09 4.97 4.97 6.06 6.06 

$ rad : int 2:2. 373 .3 55°5..5 


$ tax : num 296 242 242 222 222 222 311 311..311 
S31 二 
$ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 


15.2 15.2 15.2 


$ black : num 397 397 393 395 397 

lstat : num 4.98 9.14 4.03 2.94 5.33 

$ medv : num 6 IT 9. 936.2 68.7 229 
27.1 16.5 18.9 


在 1m() 函数 中 使 用 featurel*feature2， 将 两 个 特征 及 其 交互 项 加 入 模型 ， 如 下 所 示 : 


Am 











> Value.fit <- lm(medv ~ lstat * age, data = 
Boston) 


> summary (value .fit) 


Call: 
lm(formula = medv ~ lstat * age, data = Boston) 


Residuals: 
Min 1Q Median 3 Max 
-15.806 -4.045 -1.333 2.085 27.552 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 36.0885359 1.4698355 24.553 < 2e-16 
类 大 类 


lstat -1.3921168 0.1674555 -8.313 8.78e-16 
ww** 
age -0.0007209 0.0198792 -0.036 0.9711 


lstat:age 0.0041560 0.0018518 2.244 0.0252 
* 
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Signif. codes: 0 '***'! 0.001 '**' 0.01 '*' 0.05 
Tw OL 


Residual standard error: 6.149 on 502 degrees of 


freedom 

Multiple R-squared: 0.5557, Adjusted R-squared: 
0.5531 

F-statistic: 209.3 on 3 and 502 DF, p-value: < 
2.2e-16 








检查 输出 可 以 知道 , 社会 经 济 地 位 是 个 具有 高 预测 性 的 特征 ,而 房 龄 则 不 是 。 但 这 两 个 变量 
具有 显著 的 交互 作用 ， 可 以 对 房屋 价值 进行 正 向 解释 。 

















2.4 小 结 


在 机 器 学 习 的 语 境 下 ,我 们 训练 和 检测 模型 ， 用 来 预测 或 预报 结果 。 在 本 章 中 , 我们 深入 而 
彻底 地 研究 了 线性 回归 方法 ， 它 预测 定量 结果 ， 虽 然 简单 ,但 极其 有 效 。 后 续 章 节 会 涉及 更 高 级 
的 技术 ， 但 其 中 很 多 技术 只 是 本 章 所 学 内 容 的 扩展 。 我 们 还 讨论 了 不 对 数据 集 进行 可 视 化 检查 ， 
而 只 依赖 统计 量 进行 模型 选择 时 可 能 出 现 的 问题 。 

通过 寥寥 儿 行 代码 , 你 就 可 以 做 出 非常 强大 的 有 洞察 力 的 预测 ,以 支持 决策 。 这 不 仅 简单 有 
效 , 还 可 以 在 特征 中 包含 定量 变量 和 交互 项 。 在 机 器 学 习 领 域内 深耕 的 每 个 人 都 绝对 应 该 精通 线 
性 回归 。 






































逻辑 斯 蒂 回 归 与 判别 分 析 








“我 们 这 个 世界 的 真正 逻辑 富 于 概率 的 计算 之 中 。” 
一 一 诈 姆 斯 . 克拉克， 麦克 斯 书 ， 苏 格 兰 物 理学 家 


我 们 在 第 2 章 学 习 了 如 何 使 用 普通 最 小 二 乘法 预测 定量 结果 ， 换 句 话 说 ， 就 是 线性 回归 。 是 
时 候 换个 主题 了 ,下 面 将 学 习 如 何 使 用 算法 预测 定性 结果 。 这 样 的 结果 变量 可 能 是 二 值 变量 ( 如 
男 / 女 、 是 否 购买 、 良 性 /恶性 肿瘤 )， 也 可 能 是 多 值 分 类 ( 如 教育 水 平 、 眼 睛 颜色 )。 不 管 这 种 结 
果 变 量 是 二 值 的 还 是 多 值 的 , 分 析 的 任务 都 是 对 一 个 观测 属于 结果 变量 的 某 个 类 别 的 概率 做 出 预 
测 。 换 句 话 说， 我 们 开发 算法 的 目的 是 对 观测 进行 分 类 。 


开始 研究 分 类 问题 之 前 ,我 们 先 讨 论 为 什么 OLS 线 性 回归 不 是 解决 分 类 问题 的 合适 技术 ， 以 
及 本 章 将 要 介绍 的 算法 是 如 何 解 决 这 类 问题 的 。 然后 讨论 一 个 具体 问题 , 预测 肿瘤 活体 检查 的 结 
果 是 良性 还 是 恶性 。 我们 使 用 的 数据 集 非常 著名 ,这 个 数据 集 通常 被 称 为 “威斯康星 乳腺 癌 数 据 
集 ”。 为 解决 这 个 问题 ， 首 先 建立 一 个 逻辑 斯 带 回归 模型 并 进行 解释 ， 然 后 研究 模型 检测 方法 以 
选择 特征 ,期 望 得 到 最 合适 的 模型 。 接 下 来 ,讨论 线性 判别 分 析 方 法 和 二 次 判别 分 析 方 法 ,并 将 
这 两 种 方法 与 逻辑 斯 带 回归 进行 比较 。 在 此 之 后 , 使 用 乳腺 癌 数 据 建 立 预测 模型 。 最 后 介绍 多 元 
样 条 回归 方法 ,以 及 选择 解决 实际 问题 的 最 佳 综合 算法 ， 从 而 圆满 解决 整个 问题 。 这 些 方 法 将 为 
后 续 章 节 中 的 更 高 级 机 器 学 习 方法 打下 基础 。 














































































































3.1 分 类 方法 与 线性 回归 


既然 我 们 在 前 一 章 学 习 了 最 小 二 乘 回 归 方 法 ， 为 什么 不 能 把 它 用 于 定性 结果 呢 ? 事实 证 明 ， 
你 可 以 用 , 但 后 果 自 负 。 不 妨 假设 你 有 一 个 结果 需要 预测 ,结果 有 三 类 : 轻微 、 中 等 、 严 重 。 你 
和 你 的 同事 认为 轻微 与 中 等 之 间 的 差别 , 以 及 中 等 与 严重 之 间 的 差别 是 相等 的 , 是 一 个 线性 关系 。 
你 可 以 建立 虚拟 变量 ， 用 0 表示 轻微 ，1 表 示 中 等 ，2 表 示 严 重 。 如 果 你 有 理由 相信 这 个 ， 那 么 线 
性 回归 就 是 一 个 可 接受 的 解决 方案 。 但 是 ， 定 性 估计 ( 如 前 面 的 例子 ) 有 可 能 产生 高 测量 误差 ， 
从 而 使 OLS 发 生 偏离 。 多 数 商 业 问题 没有 一 个 在 科学 上 能 够 被 接受 的 方法 ,可 以 将 一 个 定性 的 响 
应 变量 转化 为 定量 的 响应 变量 。 如 果 我 们 有 一 个 双 结 果 响 应 变量 ， 比 如 考试 通过 和 考试 失败 , 应 
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该 怎么 做 ? 可 以 使 用 虚拟 变量 ， 将 “考试 失败 ”编码 为 0, “考试 通过 ”编码 为 1， 然 后 使 用 线性 
回归 建立 一 个 模型 , 模型 预测 值 为 观测 考试 通过 还 是 考试 失败 的 概率 。 但 是 概率 范围 为 [0, 1], 模 
型 中 7 的 估计 值 非常 有 可 能 超出 这 个 范围 。 如 果 这 样 ， 那 就 有 点 不 好 解释 了 。 









































3.2 逻辑 斯 蔽 回归 

如 前 所 述 ， 分 类 问题 最 好 使 用 位 于 0 和 1 之 间 的 概率 进行 建 模 。 对 于 所 有 观测 ， 我们 有 很 多 不 
同 的 函数 可 以 实现 这 个 功能 , 本章 重点 讨论 迎 辑 斯 蒂 函数 。 逻辑 斯 蒂 回归 中 使 用 的 迎 辑 斯 蒂 函数 
如 下 所 示 : 






































7 的 概率 = eota /1+ 了 + 


如 果 你 曾经 在 赛马 比赛 或 世界 杯 中 下 过 一 些小 小 的 赌注 , 那 就 可 以 通过 赔 率 更 好 地 理解 这 个 概 
念 。 逻 辑 斯 蒂 函 数 可 以 通过 公式 Probability(P/1 - Probability( 切 ) 转 化 为 赔 率 。 举 例 来 说 ， 如 果 巴 西 
队 赢 得 世界 杯 的 概率 是 20%， 那 么 赔 率 就 是 0.2(1 - 0.2)， 等 于 0.25， 用 赔 率 的 话 讲 就 是 “1 赔 4”。 


要 从 赔 率 回 到 概率 ,就 要 用 赔 率 除 以 1 加 赔 率 的 和 。 在 世界 杯 的 例子 中 ,就 是 0.25/(1 + 0.25)， 
等 于 20%。 此 外 ,我们 再 考虑 一 下 优势 比 。 假 设 德 国 队 赢得 世界 杯 的 赔 率 是 0.18， 我 们 可 以 通过 
优势 比 来 比较 巴西 队 和 德国 队 的 赔 率 。 在 本 例 中 , 优势 比 为 巴西 队 的 赔 率 除 以 德国 队 的 赔 率 。 可 
以 得 到 优势 比 为 0.25/0.18， 等 于 1.39。 这 样 ， 我 们 可 以 说 巴西 队 赢得 世界 杯 的 可 能 性 是 德国 队 的 
1.39 倍 。 


有 一 种 方法 可 以 看 出 逻辑 斯 带 回归 和 线性 回归 之 间 的 联系 , 逻辑 斯 蒂 回 归 就 是 以 对 数 发 生 比 
为 响应 变量 进行 线性 拟 合 , 即 log(P(7D)/1 一 P())=BotBix。 这 里 的 系数 是 通过 极 大 似 然 佑 计 得 到 
的 ， 而 不 是 通过 OLS。 极 大 似 然 的 直观 意义 就 是 ， 我 们 要 找到 一 对 Bo 和 B1 的 估计 值 ， 使 它们 产生 
的 对 观测 的 预测 概率 尽 可 能 接近 7 的 实际 观测 结果 ， 这 就 是 所 谓 的 似 然 性 。 与 其 他 软件 一 样 ，R 
语言 也 可 以 实现 极 大 似 然 估计 ， 通 过 找到 最 优 的 8 值 组 合 来 使 似 然 性 最 大 化 。 


请 记 住 , 逻辑 斯 带 回归 是 一 项 强大 的 技术 ， 可 以 预测 分 类 问题 , 通常 也 是 对 分 类 问题 进行 建 


模 的 起 点 。 因 此 ,对 于 本 章 中 将 要 面临 的 商业 问题 , 我 们 使 用 逻辑 斯 带 回归 作为 解决 问题 的 首选 
方法 。 

















































































































































































































3.2.1 业务 理解 


威斯康星 大 学 的 威廉 ' 沃 尔 伯 格 博士 1990 年 发 布 了 威斯康星 乳腺 癌 数 据 集 。 他 收集 数据 的 目 
标 是 想 辨别 肿瘤 活体 检查 结果 是 良性 的 还 是 恶性 的 。 他 的 团队 使 用 细 针 穿刺 (FNA ) 技术 收集 样 
本 。 如 果 医 生 通 过 检查 发 现 肿瘤 或 者 通过 透视 发 现 异 常 组 织 , 下 一 步 就 是 进行 活体 检查 。FNA 是 
取得 活体 组 织 的 安全 方法 , 很 少 出 现 并 发 症 。 病 理学 家 对 活体 组 织 进行 检查 ,试图 确定 诊断 结果 
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( 恶性 或 良性 )。 正如 你 所 想像 的 , 诊断 结果 并 非 无 足 轻重 。 良 性 的 乳腺 肿瘤 并 不 危险 ， 因 为 不 存 
在 异常 组 织 扩散 到 身体 其 他 部 分 的 风险 。 如 果 良 性 肿瘤 过 大 ， 就 需要 通过 外 科 手 术 切除 。 从 另 一 
方面 来 说 ， 亚 性 肿瘤 必须 进行 医疗 干预 ， 治 疗 的 程度 与 很 多 因素 有 关 ， 一 般 都 要 进行 外 科 手 术 ， 
然后 进行 放射 性 治疗 或 化 学 治疗 。 所 以 , 误诊 造成 的 后 果 是 很 严重 的 。 误 诊 为 恶性 ( false positive， 
假 阳性 ) 会 导致 昂贵 但 不 必要 的 治疗 费用 ， 还 会 使 患者 背负 巨大 的 心理 和 生理 负担 。 另 一 方面 ， 
误诊 为 良性 (false negative， 假 阴性 ) 会 使 患者 得 不 到 应 有 的 治疗 ， 造 成 痪 细胞 扩散 ， 引 起 过 早 
死亡 。 乳 腺 瘤 患 者 的 早期 医疗 干预 可 以 大 大 提高 存活 率 。 


我 们 的 任务 是 开发 尺 可 能 准确 的 机 器 学 习 诊断 算法 ， 帮 助 医疗 团队 确定 肿瘤 性 质 。 


















































3.2.2 ”数据 理解 和 数据 准备 
数据 集 包 含 699 个 患者 的 组 织 样 本 ， 保 存在 有 11 个 变量 的 数据 框 中 ， 如 下 所 示 。 


口 ID: 样本 编码 

口 v1: 细胞 浓度 

口 v2: 细胞 大 小 均匀 

口 V3: 细胞 形状 均匀 

口 v4: 边缘 黏着 度 

口 V5: 单 上 皮 细 胞 大 小 

口 v6: 裸 细 胞 核 ( 16 个 观测 值 缺 失 ) 

口 V7: 平和 染色 质 

口 v8: 正常 核 仁 

口 V9: 有 丝 分 裂 状 态 

D class: 肿瘤 诊断 结果 ， 良 性 或 恶性 ; 这 就 是 我 们 要 预测 的 结果 
医疗 团队 对 9 个 特征 进行 了 评分 和 编码 ， 评 分 的 范围 是 1~10。 

可 以 在 R 的 MASS 包 中 找到 该 数据 框 ， 名 为 biopsy。 为 进行 数据 准备 ， 我 们 加 载 这 个 数据 框 ， 
确认 数据 结构 ,将 变量 重 命名 为 有 意义 的 名 称 ， 还 要 删除 有 缺失 项 的 观测 ， 然 后 即 可 开始 对 数据 
进行 可 视 化 探索 。 下 面 就 是 我 们 开始 工作 的 代码 ， 首 先 加 载 库 文 件 和 数据 集 ， 然 后 使 用 str () 函 
数 检查 数据 内 部 结构 。 如 下 所 示 : 


> library (MASS) 
> data (biopsy) 








生 %H 














NE 三 风 
变量 。 
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> str(biopsy) 


'data.frame': 699 obs. of 11 variables: 
$ ID : chr "1000025" "1002945" "1015425" 
"1016277" ... 


$ v1 : int 5536481224... 
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$ V2 : int 14181101112 

$ V3 : int 14181101211 

$ v4 : int 1511381111.. 

$ V5 2 int 27-23 2722 2 2 

$ V6 : int 1102411010111 

$ V7 : int 3333393312 

$ V8 : int 1217171111 

$ V9 : int 1111111151... 

$ class: Factor w/ 2 levels "benign","malignant": 1 1111211 
bh 




















对 数据 结构 的 检查 发 现 , 特征 是 整数 型 变量 , 结果 变量 是 一 个 因子 ,不 需要 将 数据 转换 为 其 
他 结构 。 


我 们 可 以 删除 ID 列 ， 如 下 所 示 : 
> biopsys$ID = NULL 


接着 重 命名 变量 ， 并 确认 操作 结果 : 








> names(biopsy) <- c("thick", "u.size", "u.shape", 
"adhsn", "s.size", "nucl", "chrom", "n.nuc", 
"mit", "class") 
> names (biopsy) 


[1] "thick" "u.size" "u.shape" "adhsn" 
"s.size" "nucl" 
"chrom" "nn.nuc" 

[9] "mit" "class" 


现在 ,我们 要 删除 那些 有 缺失 数据 的 观测 。 既 然 只 有 16 个 观测 有 人 缺失 数据 , 所 以 删除 它们 不 
会 有 什么 危险 ,因为 它们 只 占 所 有 观测 的 2%。 我 们 不 会 在 本 章 对 如 何 处 理 缺 失 数据 做 全 面 讨论 ， 
你 可 以 参考 附录 A， 我 在 那里 介绍 了 如 何 对 数据 进行 处 理 。 通 过 删除 这 些 观测 ， 我 们 建立 了 一 个 
新 的 工作 数据 框 。 使 用 na.omit () 函数 后 ， 一 行 代码 就 可 以 巧妙 删除 所 有 有 缺失 数据 的 观测 。 














> biopsy.v2 <- na.omit (biopsy) 


根据 你 分 析 数 据 时 使 用 的 R 包 的 不 同 ， 结 果 变 量 也 可 能 要 求 是 数值 型 ， 比 如 0 或 者 1。 为 了 满 
足 这 个 要 求 ， 可 以 创建 一 个 变量 y， 用 0 表示 和 良 性， 用 1 表示 恶性 ， 然 后 使 用 ifelse () 函数 为 y 赋 
值 ， 如 下 所 示 : 









































> yY <- ifelse(biopsy$class == "malignant", 1, 0) 

在 分 类 问题 中 , 我 们 可 以 通过 很 多 方式 来 可 视 化 地 理解 数据 , 我 认为 用 什么 方式 都 是 个 人 的 
选择 。 在 本 例 中 , 我 喜欢 做 的 一 件 事 是 检查 各 个 特征 的 箱 线 图 ， 并 将 这 些 箱 线 图 按照 分 类 结果 并 
列 排列 。 如 果 想 知道 哪个 特征 对 于 算法 可 能 是 重要 的 , 那么 这 是 一 种 特别 好 的 方法 ,可 以 一 目 了 
然 地 看 出 数据 的 分 布 特点 。 根 据 我 的 经 验 , 箱 线 图 还 提供 了 一 种 有 效 的 故事 表达 方式 , 你 可 以 直 
接 展示 给 客户 。 有 很 多 方法 可 以 快速 画 出 箱 线 图 ，lattice 包 和 ggplot2 包 都 可 以 非常 好 地 完成 这 个 
任务 。 在 本 例 中 ， 我 会 使 用 ggplot2 包 以 及 一 个 扩展 包 reshape2。 加 载 这 些 程序 包 之 后 ， 你 需要 用 
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melt () 函数 建立 一 个 数据 框 ， 这 样 做 是 为 了 在 特征 融合 后 就 建立 一 个 箱 线 图 矩阵， 使 我 们 可 以 
轻松 地 进行 下 面 的 可 视 化 检查 : 





> library (reshape2) 
> library (ggplot2) 


下 面 的 代码 将 数据 按 值 融合 成 一 个 总 体 特征 ， 并 按照 class 变 量 进行 分 组 : 
> biop.m <- melt (biopsy.v2, id.var = "class") 


通过 功能 强大 的 ggplot2， 我 们 可 以 建立 一 个 3 x 3 的 箱 线 图 和 矩阵 ， 如 下 所 示 : 











> ggplot (data = biop.m, aes(x = class, y = value)) 
+ geom boxplot() + facet wrap(~ variable, ncol = 3) 


上 述 代 码 输出 如 下 。 





thick U.Size U.Sshape 























adhsn S.Size nucl 
. . 


Ll 
Uh 
WL 




















benign malignant benign malignant benign malignant 
class 


我 们 怎么 解释 箱 线 图 呢 ? 首先 , 在 上 面 的 屏幕 截图 中 , 日 色 和 矩形 表示 数据 的 上 四 分 位 数 和 下 
四 分 位 数 。 换 名 话说 ， 有 一 半 的 观测 落 在 白色 矩形 范围 内 。 白 色 和 矩形 中 间 的 黑色 粗 线段 表示 中 位 
数 。 从 矩形 延伸 出 的 直线 与 四 分 位 距 有 关 , 如 果 没 有 离 群 点 , 则 会 终止 于 数据 的 最 大 值 和 最 小 值 。 






































通过 对 上 面 箱 线 图 的 研究 和 判断 ,我 们 发 现 , 很 难 确定 哪个 特征 在 分 类 算法 中 是 重要 的 。 但 
是 ， 从 中 位 数 的 间隔 距离 和 相关 分 布 来 看 ， 我 觉得 可 以 有 把 握 地 认为 npuclei 是 一 个 重要 特征 。 与 
之 相反 ,不 同 class 组 的 mitosis 特 征 的 中 位 数 几 乎 没有 区 别 ， 这 说 明 它 很 可 能 是 个 无 关 特 征 。 下 面 
我 们 就 来 看 一 下 1! 


既然 所 有 特征 都 是 定量 的 , 我 们 就 可 以 像 线性 回归 一 样 进行 相关 性 分 析 。 正 如 我 们 在 线性 回 
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归 中 讨论 过 的 , 逻辑 斯 蒂 回 归 中 的 共 线 性 也 会 使 估计 发 生 偏 离 。 加 载 corrplot 包 , 检查 特征 之 间 的 
相关 性 ， 就 像 在 前 一 章 中 做 的 那样 。 这 次 使 用 另 一 种 类 型 的 相关 性 矩阵 图 ， 其 中 既 有 渐变 椭圆 ， 
也 有 相关 系数 。 如 下 所 示 : 
> library (corrplot) 
> bc <- cor(biopsy.v2[, 1:9]) #create an object of 


the features 
> corrplot .mixed (bc) 


上 述 代码 输出 如 下 。 














thick 全 全 下 篇 a 
Se 
0.65 | 0.91 ushape S 确 S , OS 0 
0.49 | 0.71 0.69 adhsn | Ea Ee 
0.52 | 0.75 | 0.72 | 0.59 s.size 洁 党 
0.59 | 0.69 | 0.71 | 0.67 | 0.59 | nucl 全 


0.55 | 0.76 | 0.74 | 0.67 | 0.62 0.68 chrom 












0.53 | 072 | 072 | 06 | 063 | 058 | 067 | nnuc | 克 


0.46 | 0.44 0.48 0.43 mit 











从 相关 系数 可 以 看 出 , 我 们 会 遇 到 共 线 性 问题 , 特别 是 细胞 大 小 均匀 度 和 细胞 形状 均匀 度 表 
现 出 非常 明显 的 共 线 性 。 作 为 逻辑 斯 带 回归 建 模 过 程 的 一 部 分 ，VI 分 析 是 必 不 可 少 的 ， 正 如 我 
们 在 线性 回归 中 所 做 的 那样 。 数 据 准备 的 最 终 任务 是 建立 训练 数据 集 和 测试 数据 集 。 从 原始 数据 
中 建立 两 个 不 同 的 数据 集 的 目的 在 于 ， 这 样 可 以 更 准确 地 预测 未 使 用 数据 或 未 知 数据 。 


实际 上 , 在 机 器 学 习 中 , 我们 不 应 该 过 于 关心 对 已 使 用 的 观测 的 预测 有 多 好 ， 而 应 该 把 重点 
放 在 那些 建立 算法 时 没有 使 用 过 的 观测 的 预测 上 面 。 所 以 , 我 们 要 使 用 训练 数据 建立 并 选择 一 个 
对 测试 数据 能 做 出 最 好 预测 的 最 优 算法 。 在 本 章 中 ， 我 们 会 遵循 这 个 评价 标准 来 建立 模型 。 


有 多 种 方式 可 以 将 数据 恰当 地 划分 成 训练 集 和 测试 集 : 50/50、60/40、70/30、80/20, 诸如 此 
类 。 你 应 该 根据 自己 的 经 验 和 判断 选择 数据 划分 方式 。 在 本 例 中 ， 我 选择 按照 70/30 的 比例 划分 
数据 。 如 下 所 示 : 


> set.seed(123) #random number generator 
> ind <- sample(2, nrow(biopsy.v2), replace = TRUE, 
prob = c(0.7, 0.3)) 
> train <- biopsy.v2[ind==1, ] #the training data 
set 
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> test <- biopsy.v2[ind==2, ] #the test data set 
> str(test) #confirm it worked 





'data.frame': 209 obs. of 10 variables: 

$ thick : int 5642176713 ... 

$ u.size : int 4 811141312.. 

$ u.shape: int 4 812161211.. 

$ adhsn : int 51311411011. 

$ s.size : int 7322162521.. 

$ nucl : int 104111111011 

$ chrom : int 3333343532 .. 

sn.nuc : int 2711131411 

$ mit : int 1111111411 

$ class : Factor w/ 2 levels benign","malignant": 
We es es De i en 
2 Ls 





为 了 确保 两 个 数据 集 的 结果 变量 是 均衡 的 ， 我 们 做 以 下 检查 : 


> table(train$class) 
benign malignant 
302 172 
> table(tests$class) 
benign malignant 
142 67 


两 个 数据 集 的 结果 变量 的 内 部 比例 完全 可 以 接受 , 既然 如 此 ,下面 开 始 进行 模型 构建 和 模型 
评价 。 











3.2.3 ”模型 构建 与 模型 评价 


ee ,我 们 首先 用 所 有 输入 变量 建立 一 个 逻辑 斯 蒂 回 归 模型 ,然后 用 最 优 子 集 
法 对 特征 进行 削减 。 在 此 之 后 ， 我 们 会 试验 判别 分 析 和 多 元 自 适应 回归 样 条 (MARS ) 方法 。 


1. 逻辑 斯 蒂 回 归 模 型 


我 们 已 经 讨论 了 逻辑 斯 带 回归 背后 的 理论 ， 现 在 可 以 开始 拟 合 模型 了 。R 中 的 glm() 函数 可 
以 拟 合 广 义 线性 模型 ,这 是 一 系列 模型 ,其 中 包括 人 逻辑 斯 带 回归 模型 。 代 码 的 语法 和 前 一 章 中 用 
过 的 1m() 函数 很 相似 ， 其 中 一 个 较 大 区 别 是 我 们 必须 在 函数 中 使 用 family = binomial 这 个 参 
数 。 该 参数 告诉 R 运 行 逻辑 斯 蒂 回归 ， 而 不 是 其 他 版 本 的 广义 线性 模型 。 首 先 在 训练 数据 集 上 使 
用 所 有 特征 建立 一 个 模型 ， 看 看 这 这 个 模型 在 测 试 数据 集 上 运行 的 效果 。 如 下 所 示 : 


> full.fit <- glm(class ~ ., family = binomial, 
data = train) 
> summary (full .fit) 
Call: 
glm(formula = class ~ ., family = binomial, data = 
train) 
Deviance Residuals: 
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2. 


Max 
3559 


PE(>1z1) 
1.55e-14 


.001039 
.669165 
.268044 


.167021 
.000826 


0.208006 
0.102126 
0.205402 


"xx 0.05 


0 
0 
0 
0.075722 . 
0 
0 


** 


family taken to 


degrees of 


degrees of 


Min 1Q Median 3Q 
-3.3397 -0.1387 -0.0716 0.0321 
Coefficients: 

Estimate Std. Error z value 
(Intercept) -9.4293 1.2273 -7.683 
类 火炎 
thick 0.5252 0.1601 3.280 
u.size -0.1045 0.2446 -0.427 
u.shape 0.2798 0.2526 1.108 
adhsn 0.3086 0.1738 1.776 
s.size 0.2866 0.2074 1.382 
nucl 0.4057 0.1213 3.344 
炎炎 类 
chrom 0.2737 0.2174 1.259 
n.nuc 0.2244 0.1373 1.635 
mit 0.4296 0.3393 1.266 
Signif. codes: 0 '***'! 0.001 '**' 0.01 
var "0zlL "TT 
(Dispersion parameter for binomial 
be 1) 
Null deviance: 620.989 on 473 
freedom 
Residual deviance: 78.373 on 464 
freedom 


AIC: 98.373 


Number of Fisher Scoring iterations: 8 


通过 summary () 函数 ， 我 们 可 以 查看 各 个 预测 变量 的 系数 及 其 p 值 。 可 以 看 到 ， 只 有 两 个 特 








如 下 所 示 : 
> confint (full .fit) 
5 
(Intercept) -12.23786660 -7 
thick 0.23250518 0 
u.size -0.56108960 0 
u.shape -0.24551513 0 
adhsn -0.02257952 0 
s.size -0.11769714 0 
nucl 0.17687420 0 
chrom -0.13992177 0 
n.nuc -0.03813490 0 
mit -0.14099177 1 


征 的 p 值 小 于 0.05( thickness 和 nuclei )。 使 月 





97.5 % 
.3421509 
.8712407 
.4212527 
.7725505 
.6760586 
.7024139 
.6582354 
.7232904 
.5110293 
.0142786 




















请 注意 , 两 个 显著 特征 的 置信 区 间 不 包括 0。 对 于 逻辑 
时 , 优势 比 的 作 月 





改变 1 个 单位 时 7 会 改变 多 少 ”。 这 


























confint () 函数 可 以 对 模型 进行 95% 置 信 区 间 的 检验 。 





斯 蒂 回 归 模 型 的 系数 , 你 不 能 解释 为 “ 当 
有 就 体现 出 来 了 。 对 数 函 数 log(P(7)/1 一 P(7))= 


Bo+ Bix 的 B 系 数 可 以 通过 exponent (peta) 指数 函数 转化 为 优势 比 。 
要 在 R 中 计算 优势 比 ， 可 以 使 用 下 面 的 exp (coef () ) 函数 形式 : 
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> exp(coef (full.fit)) 
(Intercept) thick u.size u.shape 

adhsn 

8.033466e-05 1.690879e+00 9.007478e-01 1.322844e+00 
1.361533e+00 

s.size nucl chrom n.nuc mit 

1.331940e+00 1.500309e+00 1.314783e+00 1.251551e+00 
1.536709e+00 


优势 比 可 以 解释 为 特征 中 1 个 单位 的 变化 导致 的 结果 发 生 比 的 变化 。 如 果 系 数 大 于 1, 就 说 明 
当 特 征 的 值 增加 时 ， 结 果 的 发 生 比 会 增加 。 反 之 ， 系 数 小 于 1 就 说 明 ， 当 特征 的 值 增加 时 ， 结 果 
的 发 生 比 会 减 小 。 在 本 例 中 ， 除 u.size 之 外 的 所 有 特征 都 会 增加 对 数 发 生 比 。 

我 们 进行 数据 探索 时 发 现 一 个 问题 
归 中 也 可 以 算出 VIF 统 计量 ， 如 下 所 示 : 















































潜在 的 多 重 共 线 性 。 同 线性 回归 一 样 ,在 逻辑 斯 带 回 





> library (car) 
> vif (full.fit) 
thick u.size u.shape adhsn s.size nucl 

chrom n.nuc 

1.2352 3.2488 2.8303 1.3021 1.6356 1.3729 
1.5234 1.3431 

mit 
1.059707 


没有 一 个 VIF 值 大 于 5， 根 据 VIF 经 验 法 则 ， 共 线性 看 来 不 成 为 一 个 问题 。 下 面 的 任务 就 是 进 
行 特 征 选择 ， 先 别 急 ， 我 们 先 编写 一 些 代 码 ， 看 看 模型 在 训练 数据 集 和 测试 数据 集 上 表现 如 何 。 


首先 要 建立 一 个 向 量 ， 表 示 预 测 概率 ， 如 下 所 示 : 











> train.probs <- predict(full.fit, type = 
"response") 
> train.probs[1:5] #inspect the first 5 predicted 
probabilities 
[1] 0.02052820 0.01087838 0.99992668 0.08987453 
0.01379266 


下 一 步 需要 评价 模型 在 训练 集 上 执行 的 效果 , 然后 再 评价 它 在 测试 集 上 的 拟 合 程度 。 快速 实 
现 评 价 的 方法 是 生成 一 个 混淆 矩阵 。 在 后 面 的 章节 中 ， 我 们 使 用 的 混淆 矩阵 是 由 caret 包 实现 的 ， 
InformationValue 包 也 可 以 实现 混淆 和 矩阵。 这 时 , 我 们 需要 用 0 和 1 来 表示 结果 。 函 数 区 别 良 性 结 
和 恶性 结果 使 用 的 默认 值 是 0.530， 也 就 是 说 ， 当 概率 大 于 等 于 0.50 时 ， 就 认为 这 个 结果 是 恶性 的 : 

> trainY <- y[ind==1] 


testY <- y[ind==2] 
confusionMatrix(trainY, train.probs) 






















































































Y Y 


0 1 
0 294 7 
1 8 165 





和 矩阵 的 行 表示 预测 值 ， 列 表示 实际 值 。 对 角 线 上 的 元 素 是 预测 正确 的 分 类 。 右 上 角 的 值 7 表示 
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误 为 恶性 的 预测 数 ， 左 下 角 的 值 8 表 示 误 为 良性 的 预测 数 。 可 以 查看 错误 预测 的 比例 。 如 下 所 示 : 





> misClassError (trainyY，train.probs) 
[1] 0.0316 





看 上 去 我 们 干 得 相当 不 错 ， 训 练 集 上 只 有 3.16% 的 预测 错误 率 。 如 前 所 述 ， 我 们 必须 正确 预 


测 未 知 数据 ， 换 名 话说， 必须 正确 预测 测试 集 。 


但 是 ,我 们 还 是 要 看 看 是 否 有 改进 的 空间 。 想 象 一 下 ， 假 如 你 或 你 的 亲人 是 被 误诊 的 患者 ,会 怎 





在 测试 集 上 建立 混淆 矩阵 的 方法 和 在 训练 集 上 一 样 : 


> test .probs <- predict(full.fit, newdata = test, 
type = "response") 
> misClassError(testyY, test.probs) 
[1] 0.0239 
> confusionMatrix(testY, test.probs) 
0 1 
0 139 2 
于 3 65 


看 上 去 , 我 们 使 用 全 部 特征 建立 的 模型 效果 非常 好 , 差不多 98% 的 预测 正确 率真 是 让 人 激动 。 
























































么 样 ? 就 像 前 面 提 到 的 , 后 果 很 严重 。 出 于 这 种 考虑 ,还 可 能 有 更 好 的 方式 来 建立 分 类 算法 吗 ? 
下 面 我 们 就 来 看 一 下 ! 


法 是 将 数据 集 分 成 K 个 相等 的 等 份 ， 每 个 等 份 称 为 一 个 K 子 集 (K-set )。 算 法 每 次 留 出 一 个 子 集 ， 


2. 使 用 交叉 验证 的 逻辑 斯 蒂 回 归 
交叉 验证 的 目的 是 提高 测试 集 上 的 预测 正确 率 ， 以 及 尽 可 能 避免 过 拟 合 。K 折 交叉 验证 的 做 



































使 用 其 余 及 - 1 个 子 集 拟 合 模型 ,然后 用 模型 在 留 出 的 那个 子 集 上 做 预测 。 将 上 面 K 次 验证 的 结 
进行 平均 ， 可 以 使 误差 最 小 化 ,并 且 获 得 合适 的 特征 选择 。 你 也 可 以 使 用 留 一 交叉 验证 方法 ,这 
里 的 K 等 于 N。 模 拟 表 明 ,，LOOCV 可 以 获得 近乎 无 偏 的 估计 ,但 是 会 有 很 高 的 方差 。 所 以 ,大 多 
数 机 器 学 习 专 家 都 建议 将 K 的 值 定 为 5 或 10。 




















bestglm 包 可 以 自动 进行 交叉 验证 ， 这 个 包 依赖 于 我 们 在 线性 回归 中 使 用 过 的 leaps 包 。 交 又 


验证 的 语法 和 数据 格式 存在 注意 事项 ， 所 以 我 们 按部就班 地 进行 : 


1 


各 





> library (bestglm) 
Loading required package: leaps 


加 载 程 序 包 之 后 , 需要 将 结果 编码 成 0 或 1。 如 果 结 果 仍 为 因子 ,程序 将 不 起 作用 。 使 用 这 个 












































序 包 的 另外 一 个 要 求 是 结果 变量 〈 或 y ) 必须 是 最 后 一 列 ， 而 且 要 删除 所 有 没有 用 的 列 。 通 过 





以 下 代码 新 建 一 个 数据 框 即 可 快速 实现 上 述 要 求 : 





> X <- train[, 1:9] 
> Xy <- data.frame(cbind(X，trainY) ) 


以 下 代码 使 用 数据 进行 交叉 验证 : 
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> bestglm(Xy = Xy, IC="CV", 
CVvArgs=1ist (Method="HTF", K=10, 
REP=1), family=binomial) 
在 上 面 的 代码 中 ，xy = xy 指 的 是 我 们 已 经 格式 化 的 数据 框 ，IC = "cv" 告 诉 程序 使 用 的 信 
息 准 则 为 交叉 验证 ，cVargs 是 我 们 要 使 用 的 交叉 验证 参数 。HTF 方 法 就 是 K 折 交叉 验证 ， 后 面 的 
数字 K = 10 指 定 了 均 分 的 份 数 ， 人 参数 REP = 1 告诉 程序 随机 使 用 等 份 并 且 只 迭代 一 次 。 像 glm() 
函数 一 样 ， 我 们 需要 指定 参数 family = binomial。 顺便 说 一 句 ， 如 果 = 
gaussian， 你 就 可 以 使 用 pestglim() 函数 进行 线性 回归 。 完 成 上 面 的 交叉 验证 分 析 之 后 ， 
到 下 面 的 结果 : Best Model 有 三 个 特征 ， 它 们 是 thick、u.size 和 nucl。 ee 
果 表 明 ， 程 序 对 所 有 可 能 的 子 集 进行 了 简单 而 彻底 的 搜索 。 如 下 所 示 : 





























Morgan-Tatar search since family is non-gaussian. 
CVv(K = 10, REP = 1) 
BICG equivalent for gq in (7.16797006619085e-05, 
0.273173435514231) 
Best Model: 
Estimate Std. Error z value Pr(>|1z|) 
(Intercept) -7.8147191 0.90996494 -8.587934 
8.854687e-18 


thick 0.6188466 0.14713075 4.206100 
2.598159e-05 

u.size 0.6582015 0.15295415 4.303260 
1.683031e-05 

nucl 0.5725902 0.09922549 5.770596 


7.899178e-09 


我 们 可 以 把 这 些 特征 放 到 glm() 函数 中 , 看 看 模型 在 测试 集 上 表现 如 何 。predict () 函数 不 
能 用 于 bestglm 生 成 的 模型 ， 所 以 下 面 的 步骤 是 必需 的 : 























> reduce.fit <- glm(class ~ thick + u.size + nucl, 
family = binomial, data = train) 


同 前 面 一 样 ， 下 面 的 代码 可 以 在 测试 集 上 比较 预测 值 和 实际 值 : 


> test.cv.probs <- predict (reduce.fit, newdata = 
test, type = "response") 
> misClassError(testY, test.cv.probs) 
[1] 0.0383 
> confusionMatrix(testY, test.cv.probs) 
0 入 
0 139 5 
1 3 62 


精简 了 特征 的 模型 和 全 特征 模型 相 比 ， 精 确 度 略 有 下 降 ， 但 这 并 不 是 “世界 末日 ”。 我 们 可 
以 用 bestglm 包 再 试 一 次 ， 这 次 使 用 信息 准则 为 BIC 的 最 优 子 集 方法 : 
> bestglm(Xy = Xy, IC = "BIC", family = binomial) 


Morgan-Tatar search since family is non-gaussian. 
BIC 












































46 第 3 章 


逻辑 斯 蒂 回 归 与 判别 分 析 





BICq equivalent for q in (0.273173435514231, 
0.577036596263757) 


Best Model: 


Estimate Std. Error 
(Intercept) -8.6169613 


6.633065e-17 
thick 
1.419160e-06 
adhsn 
2.541153e-03 
nucl 
1.462068e-08 
n.nuc 
2.920152e-04 


试 过 所 有 可 能 的 子 集 之 后 , 以 上 4 个 特 生 
上 的 预测 效果 ， 如 下 所 示 : 





0.7113613 


0.4537948 


0.5579922 


0.4290854 


z value Pr(>|z|) 
1.03155250 -8.353391 


0.14751510 4.822295 


0.15034294 3.018398 


0.09848156 5.665956 


0.11845720 3.622282 





EF 提供 了 最 小 的 BIC 评 分 。 我 们 看 看 这 个 模型 在 测试 集 


> bic.fit <- glm(class ~ thick + adhsn + nucl + 
n.nuc, family = binomial, data = train) 
> test.bic.probs <- predict(bic.fit, newdata = 
test, type = "response") 
> misClassError(testY, test.bic.probs) 


> confusionMatrix(testY, test.bic.probs) 


[1] 0.0239 

0 1 
0 138 1 
1 4 66 


我 们 得 到 5 个 错误 的 预测 ， 和 全 特征 模型 一 样 。 那 么 问题 来 了 : 哪 一 个 模型 更 好 ? 在 任何 正 








常情 况 下 ,如果 具有 相同 的 泛 化 效果 ， 
可 以 开启 一 个 全 新 的 分 析 , 使 月 











新 的 随机 数 以 及 新 的 


经 验 法 则 会 选择 


最 简单 的 或 解释 性 最 好 的 模型 。 我 们 当然 











1 练 集 和 测试 集 划 分 比例 。 但 是 , 不妨 假定 





我 们 已 经 做 了 逮 辑 斯 蒂 回 归 能 做 的 所 有 操作 ， 最 后 还 是 回 到 了 全 特征 模型 和 BIC 最 小 模型 ， 仍 然 
需要 讨论 模型 选择 的 方法 。 下 面 讨论 判别 分 析 的 方法 , 在 最 后 的 模型 推荐 中 , 我 们 有 可 能 选择 使 

















用 这 种 方法 建立 的 模型 。 





3.3 判别 分 析 概 述 























判别 分 析 又 称 费 合 尔 判别 分 析 ， 也 是 一 项 常用 的 分 类 技术 。 当 分 类 很 确定 时 ,判别 分 析 可 以 
有 效 蔡 代 逻辑 斯 蒂 回 归 。 当 你 遇 到 分 类 结果 很 确定 的 分 类 问题 时 ,逻辑 斯 蒂 回 归 的 估计 结果 可 能 












































是 不 稳定 的 ， 即 置信 区 间 很 宽 ， 不 同样 本 之 间 的 估计 值 会 有 很 大 变化 ( James，2013 )。 判 别 分 析 
不 会 受到 这 个 问题 的 困扰 ,实际 上 ， 它 会 比 逻辑 回归 做 得 更 好 , 泛 化 能 力 更 强 。 反 之 ， 如 果 特 征 








和 结果 变量 之 间 具 有 错综复杂 的 关系 ,判别 分 析 在 分 类 任务 上 的 表现 就 会 非常 差 。 在 乳腺 癌 这 个 














例子 中 ， 逻辑 划 








带 回 归 在 训练 集 和 测试 集 上 的 表现 都 非常 好 , 分 类 的 结果 并 不 确定 。 出 于 同 逻 辑 








回归 进行 比较 的 目的 ， 我 们 研究 一 下 判别 分 析 ， 包 括 线性 判别 分 析 和 二 次 判别 分 析 。 
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判别 分 析 使 用 贝 叶 斯 定理 确定 每 个 观测 属于 某 个 类 别 的 概率 。 如 果 你 有 两 个 类 别 ， 比 如 良性 
和 亚 性 , 判别 分 析 会 计算 观测 分 别 属 于 两 个 类 别 的 概率 , 然后 选择 高 概率 的 类 别 作为 正确 的 类 别 。 


贝 叶 斯 定理 定义 了 在 X 已 经 发 生 的 条 件 下 7 发 生 的 概率 一 一 等 于 Y 和 XX 同时 发 生 的 概率 除 以 


发 生 的 概率 ， 公 式 如 下 : 
> P(X+7Y) 
概率 = 
J P(X) Be 


公式 中 的 分 子 表示 一 个 具有 某 些 特征 的 观测 属于 某 个 分 类 水 平 的 可 能 性 , 分 母 表示 一 个 具有 
这 些 特 征 的 观测 属于 所 有 分 类 水 平 的 可 能 性 。 同 样 地 ， 分 类 原则 认为 如 果 X 和 7 的 联合 分 布 已 知 ， 
那么 给 定 X 后 ， 决 定 观测 属于 哪个 类 别 的 最 佳 决 策 是 选择 那个 有 更 大 概率 ( 后 验 概率 ) 的 类 别 。 


获得 后 验 概率 的 过 程 如 下 所 示 。 


(1) 收集 已 知 类 别 的 数据 。 

(2) 计算 先 验 概率 一 一 代表 属于 某 个 类 别 的 样本 的 比例 。 

(3) 按 类 别 计算 每 个 特征 的 均值 。 

(4) 计算 每 个 特征 的 方差 - 协 方差 矩阵 。 在 线性 判别 分 析 中 , 这 会 是 一 个 所 有 类 别 的 混合 和 矩阵， 
给 出 线性 分 类 器 ; 在 二 次 判别 分 析 中 ， 会 对 每 个 分 类 建立 一 个 方差 - 协 方差 矩阵 。 

(5) 估计 每 个 分 类 的 正 态 分 布 〈 高 斯 密度 )。 

(6) 计算 qiscriminant 函 数 ， 作 为 一 个 新 对 象 的 分 类 原则 。 

(7) 根据 aiscriminant 函 数 ， 将 观测 分 配 到 某 个 分 类 。 


我 们 还 可 以 给 出 确定 后 验 概率 的 扩展 表示 形式 ， 如 下 所 示 。 

















































































































口 z= 分 类 k 中 的 样本 数 /总 体 样本 数 ， 是 一 个 随机 选择 的 观测 属于 第 k 个 分 类 的 先 验 概率 。 
D AD=PC=xl7= 月 是 一 个 观测 属于 第 k 个 分 类 的 概率 密度 函数 。 假 设 概率 服从 正 态 分 布 
(高 斯 分 布 )。 如果 有 多 个 特征 ， 假 设 概率 服从 多 元 高 斯 分 布 。 

口 通过 px(X) = 7 在 给 定 X 时 的 概率 ， 我 们 按 以 下 方式 调整 贝 叶 斯 定理 。- 忆 (CI = 亚太 CD)/ 
Ajf(X)。 这 是 给 定 一 个 观测 的 特征 值 时 ， 这 个 观测 属于 第 个 分 类 的 后 验 概率 。 

口 假设 +=2 并 且 先 验 概率 相同 ,zi =zz2， 则 当 2x(p 一 多 ) > yo 一 12 时， 观测 值 被 分 配 到 第 一 
个 分 类 中 ， 和 否则 就 被 分 配 到 第 二 个 分 类 。 这 个 公式 称 为 决策 边界 。 判 别 分 析 会 生成 E- 1 
个 决策 边界 ， 也 就 是 说 ， 如 果 有 三 个 类 别 (k= 3 )， 那 么 就 会 有 两 个 决策 边界 。 





































































































尽管 线性 判别 分 析 简 单 而 又 优雅 , 它 仍 然 具 有 局 限 性 。 线 性 判别 分 析 假 设 每 种 类 别 中 的 观测 
服从 多 元 正 态 分 布 , 并 且 不 同类 别 之 间 的 具有 同样 的 协 方差 。 二 次 判别 分 析 仍 然 假设 观测 服从 正 
态 分 布 ， 但 假设 每 种 类 别 都 有 自己 的 协 方差 。 


为 什么 这 种 假设 很 重要 ?” 当 你 放宽 相同 协 方差 假设 , 就 意味 着 允许 二 次 项 进入 判别 分 数 的 计 




















48 ”第 3 章 逻辑 斯 带 回归 与 判别 分 析 








算 , 这 在 线性 判别 分 析 中 是 不 可 能 的 。 其 中 的 数学 意义 理解 起 来 有 些 挑战 性 , 已 经 超出 了 本 书 的 


























讨论 范围 。 重 要 的 是 要 记 住 , 二 次 判别 分 析 技 术 比 逻辑 斯 带 回 归 更 具 灵 活性 ,同时 还 要 时 刻 牢记 














Ly 











方差 。 和 很 多 灵活 的 技术 一 样 ， 需 要 一 个 高 鲁 棒 性 的 训练 数据 集 来 降低 高 分 类 方差 。 


判别 分 析 应 用 








偏差 一 方差 权衡 的 问题 。 使 用 更 有 灵活 性 的 技术 可 以 得 到 偏差 更 小 的 结果 , 但 很 可 能 具有 更 高 的 


线性 判别 分 析 (LDA ) 可 以 用 MASS 包 实现 , 我 们 为 了 使 用 biopsy 数 据 集 已 经 加 载 了 这 个 包 。 





LDA 的 语法 和 lm() 以 及 glm() 函数 非常 相似 。 
现在 可 以 开始 LDA 模 型 的 拟 合 了 ， 如 下 所 示 : 


> lda.fit <- lda(lclass ~ ., data = train) 
> lda.fit 
Call: 
ldal(lclass ~ ., data = train) 


Prior probabilities of groups: 
benign malignant 
0.6371308 0.3628692 
Group means: 
thick u.size u.shape adhsn s.size nucl 
chrom 
benign 2.9205 1.30463 1.41390 1.32450 2.11589 
1.39735 2.08278 
malignant 7.1918 6.69767 6.68604 5.66860 5.50000 
7.67441 5.95930 
n.nuc mit 
benign 1.22516 1.09271 
malignant 5.90697 2.63953 
Coefficients of linear discriminants: 


LD1 
Thick 0.19557291 
u.size 0.10555201 
u.shape 0.06327200 
adhsn 0.04752757 
s.size 0.10678521 
nucl 0.26196145 
chrom 0.08102965 
n.nuc 0.11691054 
mit -0.01665454 








从 结果 可 以 看 出 ， 在 分 组 先 验 概率 中 ， 良 性 概率 大 约 为 64%， 恶 性 概率 大 约 为 36%。 下 面 再 











看 看 分 组 均值 ， 这 是 按 类 别 分 组 的 每 个 特征 的 均值 。 线 性 判别 系数 是 标准 线性 组 合 ， 
测 的 判别 评分 的 特征 。 评 分 越 高 ， 越 可 能 被 分 人 恶性 组 。 


对 LDA 模 型 使 用 plot () 函数 ， 可 以 面 出 判别 评分 的 直方 图 和 密度 图 ， 如 下 所 示 : 


> plot(lda.fit, type = "both") 


























来 确定 观 
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上 述 在 输出 如 下 。 
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可 以 看 出 ， 组 间 有 些 重合 ， 这 表明 有 些 观 测 被 错误 分 类 。 











LDA 模 型 可 以 用 preaict () 函数 得 到 3 种 元 素 (class 、posterior 和 x ) 的 列表 。class 元 素 是 对 
良性 或 恶性 的 预测 ，posterior 是 值 为 x 的 评分 可 能 属于 某 个 类 别 的 概率 ，x 是 线性 判别 评分 。 通 过 
下 面 的 函数 ， 我 们 仪 提取 恶性 观测 的 概率 : 


> train.lda.probs <- predict (lda.fit)s$posteriorl[, 
2] 
> misClassError(trainY, train.lda.probs) 
[1] 0.0401 
> confusionMatrix(trainYyY, train.]lda.probs) 
0 1 
0 296 13 
1 6 159 


很 不 幸 , 我 们 的 LDA 模 型 在 训练 集 上 表现 得 比 逻 辑 斯 带 回归 模型 差 多 了 。 但 最 重要 的 是 LDA 
模型 在 测试 集 上 的 表现 ， 如 下 所 示 : 


> test.lda.probs <- predict(lda.fit, newdata = 
test)s$posterior[, 2] 
> misClassError(testY, test.1da.probs) 
[1] 0.0383 
> confusionMatrix(testY, test.1da.probs) 
0 和 
0 140 6 
1 2 61 


基于 LDA 模 型 在 训练 集 上 的 糟糕 表现 ， 它 在 测试 集 上 的 表现 比 我 预期 的 要 好 。 从 正确 分 类 率 
的 角度 看 ,LDA 模型 表现 得 依然 不 如 逻辑 斯 带 回 归 模 型 (LDA 模 型 :96%, 逻辑 斯 蒂 回 归 模 型 :98% )。 

























































































下 面 用 二 次 判别 分 析 ( QDA ) 模型 来 拟 合 数据 。 在 R 中 ，QDA 也 是 MASS 包 的 一 部 分 ， 函 数 
为 ada () 。 建 模 过 程 直 堆 了 当 ， 我 们 将 模型 存储 在 一 个 名 为 aaa.fit 的 对 象 中 ， 如 下 页 所 示 : 
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> qda.fit = qdqa(class ~ ., data = train) 
> qda.fit 
Call: 
qda(lclass ~ ., data = train) 


Prior probabilities of groups: 
benign malignant 
0.6371308 0.3628692 
Group means: 
Thick u.size u.shape adhsn s.size nucl chrom 
n.nuc 
benign 2.9205 1.3046 1.4139 1.3245 2.1158 
1.3973 2.0827 1.2251 
malignant 7.1918 6.6976 6.6860 5.6686 5.5000 
7.6744 5.9593 5.9069 
mit 
benign 1.092715 
malignant 2.639535 


结果 中 有 分 组 均值 ， 和 LDA 一 样 ; 但 是 没有 系数 ， 因 为 这 是 二 次 函数 ， 我 们 前 面 讨论 过 了 。 
使 用 与 LDA 相 同 的 代码 ， 可 以 得 到 QDA 模 型 在 训练 集 和 测试 集 上 的 预测 结 





> train.gqda.probs <- predict (qda.fit)s$posteriorl[, 
2] 
> misClassError(trainY, train.qda.probs) 
[1] 0.0422 
> confusionMatrix(trainY, train.qda.probs) 
0 1 
0 287 
1 15 167 
> test.gqda.probs <- predict (qda.fit, newdata = 
test)s$posterior[, 2] 
> misClassError(testY, test.qda.probs) 
[1] 0.0526 
> confusionMatrix(testY, test.qda.probs) 
0 1 
0 132 1 
1 10 66 


根据 混淆 矩阵 可 以 立即 断定 ，QDA 模 型 在 训练 数据 集 上 表现 得 最 差 。QDA 在 测试 集 上 的 分 
类 效果 也 很 差 ， 有 11 个 预测 错误 ， 而 误 为 恶性 的 比例 尤其 高 。 




















3.4 多 元 自 适应 回归 样 条 方法 
如 果 有 一 种 建 模 技术 具有 以 下 特点 ， 你 是 不 是 会 喜出望外 ? 


口 对 于 回归 和 分 类 问题 ， 都 可 以 灵活 建立 线性 模型 和 非 线性 模型 。 
口 文 持 变量 的 交互 项 。 
口 简单 易 履 ， 易 于 解释 。 








也 
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口 几乎 不 需要 数据 预 处 理 。 
口 可 以 处 理 所 有 类 型 的 数据 : 数值 型 、 因 子 等 。 
口 可 以 很 好 地 预测 未 知 数据 ， 也 就 是 说 ， 在 偏差 -方差 的 权衡 方面 做 得 非常 好 。 


如 果 这 些 特点 都 让 你 心动 ， 那么 就 根本 不 用 我 再 向 你 推荐 MARS 模 型 了 。 几 个 月 前 我 注意 到 
了 这 种 方法 ， 而 且 发 现 这 种 方法 的 效果 出 奇 地 好 。 实 际 上 , 在 我 最 近 的 工作 中 ,这 种 方法 在 测试 
数据 上 的 效果 超过 了 随机 森林 和 提升 树 。 它 立刻 就 成 为 了 我 的 基准 模型 ， 其 他 模型 都 是 用 来 和 它 
做 比较 的 。 这 种 方法 的 男 外 一 个 优点 是 , 它 否 定 了 我 正在 做 的 很 多 特征 工程 方面 的 工作 。 这 些 工 
作 中 ， 很 多 都 要 使 用 证 据 权 重 法 (WOE ) 和 信息 价值 法 (IV ) 来 捕获 非 线 性 并 对 变量 进行 重新 
编码 。 我 本 来 是 想 花 些 篇 幅 介 绍 WOE 和 IV 方 法 的 ， 但 经 过 一 些 测 试 ， 我 发 现 这 些 技术 能 做 的 事 
情 ，MARS 也 做 得 非常 好 ( 比如 捕获 非 线 性 )， 所 以 干脆 就 不 再 介绍 WOE 和 IV 方 法 了 。 


要 理解 MARS 非 常 容易 。 首先, 我 们 从 一 个 前 面 已 经 讨论 过 的 线性 模型 或 广义 线性 模型 开始 。 
然后 ， 为 了 捕获 非 线性 关系 ， 添 加 一 个 铵 链 (hinge ) 函数 。 这 些 铵 链 作 用 于 输入 特征 ， 相 当 于 
系数 的 改变 。 举 例 来 说 ， 假 设 有 这 样 一 个 模型 : 六 12.5 ( 截 距 ) +1.5 ( 变量 1 ) +3.3( 变量 2 )， 其 
中 变量 1 和 变量 2 的 范围 都 在 1 和 10 之 间 。 下 面 ， 我 们 看 看 变量 2 的 铵 链 函 数 如 何 发 挥 作 用 : 


Y= 11 (新 截 距 ) +1.5 ( 变量 1 ) + 4.26734(max(0, 变量 2 - 5.5)) 


于 是 ,我 们 可 以 这 样 理解 镑 链 函 数 ， 在 0 和 变量 ? 减 去 5.50 的 结果 中 ， 它 找 出 其 中 的 最 大 值 。 
所 以 ,只 要 变量 2 的 值 大 于 5.5， 锐 链 函 数 的 值 就 会 乘 以 系数 ， 否 则 它 的 值 就 是 0。 这 种 方法 可 以 
给 每 个 变量 配置 多 个 匀 链 ， 也 可 以 用 于 交互 项 。 


MARS 方 法 的 另 一 个 有 趣 之 处 是 ， 它 可 以 自动 进行 变量 选择 。 这 是 通过 交叉 验证 实现 的 ， 默 
认 的 方法 是 通过 前 向 过 程 建 模 一 一 这 非常 类 似 于 前 向 逐步 回归 然后 通过 后 向 过 程 精简 模型 。 
因为 模型 完成 前 向 过 程 之 后 , 有 可 能 出 现 对 数据 的 过 拟 合 , 所 以 要 通过 后 向 过 程 根据 广义 交叉 验 
证 对 答 入 特征 进行 精简 ， 并 去 除 饮 链 。 
GCV=RSS/N*(1 - 参数 有 效 数 量 /M)? 
参数 有 效 数 量 = 输入 特征 数量 + 惩罚 系数 *( 输 入 特征 数量 -1)/2 


在 earth 包 中 , 对 于 加 法 模型 来 说 , 惩罚 系数 =2; 对 于 乘法 模型 , 其 中 有 交互 项 , 惩罚 系数 =3。 


在 R 中 , 你 可 以 调整 的 参数 非常 少 。 在 下 面 的 例子 中 , 我 会 演示 一 种 简单 而 又 有 效 实现 MARS 
的 方法 。 如 果 你 的 需求 很 多 ， 那 么 可 以 学 习 Stephen Milborrow 制 作 的 非常 棒 的 在 线 教程 Notes on 
the earth package， 通 过 以 下 链接 可 以 学 习 MARS 的 更 多 灵活 用 法 : 



































































































































































































































http:/www.milbo.org/doc/earth-notes.pdf 


介绍 完 MARS 以 后 , 我 们 开始 学 习 其 用 法 。 你 可 以 使 用 MDA 包 , 但 因为 我 是 通过 earth 包 学 习 
的 ， 所 以 我 还 是 使 用 这 个 包 。 代码 和 前 面 的 例子 很 相似 ， 在 那里 我 们 使 用 了 glim() 函数 。 但 需要 
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注意 ， 一 定 要 设 定 如 何 精简 模型 ， 并 且 使 响应 变量 服从 二 元 分 布 。 我 的 设 定 是 使 用 $ 折 交叉 验证 
来 选择 模型 (pmethoq="cv"，nfold = 5)， 重 复 3 次 (ncross = 3 ); 使 用 没有 交互 项 的 加 法 
模型 (degree = 1 )， 每 个 输入 特征 只 使 用 一 个 贸 链 函数 (minspan = -1 )。 在 我 使 用 的 数据 
中 ， 交 互 项 和 多 个 匀 链 函数 都 会 导致 过 拟 合 。 当 然 ， 你 的 情况 会 有 所 不 同 。 代 码 如 下 所 示 : 























> library (earth) 
> set.seed(1) 


> earth.fit <- earth(class ~ ., data = train, 
pmethod = "cv", 
nfold = 5, 
ncross = 3, 
degree = 1, 
minspan = -1, 


glm=list (family=binomial) 
) 


下 面 查 看 模型 摘要 。 乍 一 看 ， 它 有 点 让 人 摸 不 着 头脑 。 当 然 ， 我 们 可 以 看 到 模型 公式 和 逻辑 
斯 蒂 回 归 系 数 ， 还 有 匀 链 函数 ， 再 后 面 是 一 些 注释 和 广义 R 方 的 数值 ， 等 等 。MARS 模 型 的 生成 过 
程 是 : 先 根据 数据 建立 一 个 标准 线性 回归 模型 ， 它 的 响应 变量 在 内 部 编码 为 /和 1; 对 特征 ( 变量 ) 
进行 精简 之 后 ， 生 成 最 终 模 型 ， 并 将 其 转换 为 一 个 GLM 模 型 。 所 以 ,我 们 可 以 不 用 考虑 R 方 的 值 : 


> summary (earth.fit) 

Call: earth(formula=class~., data=train, 
pmethod="cv", 

glm=list (family=binomial), degree=1, ncross=3, 
nfold=5, minspan=-1) 

GLM coefficients 

malignant 

(Intercept) -6.5746417 

u.size 0.1502747 

adhsn 0.3058496 

s.size 0.3188098 

nucl 0.4426061 

n.nuc 0.2307595 

h(thick-3) 0.7019053 

h(3-chrom) -0.6927319 

Earth selected 8 of 10 terms, and 7 of 9 predictors 
using pmethod="cv" 

Termination condition: RSq changed by less than 
0.001 at 10 terms 

Importance: nucl, u.size, thick, n.nuc, chrom, 
s.size, adhsn, 
u.shape-unused, 

Number of terms at each degree of interaction: 1 7 
(additive model) 

Earth GRSq 0.8354593 RSq 0.8450554 mean.oof.RSq 
0.8331308 (sd 0.0295) 

GLM null.deviance 620.9885 (473 dof) deviance 
81.90976 (466 dof) 
iters 8 
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pmethod="backward" would have selected the same 
model: 

8 terms 7 preds, GRSq 0.8354593 RSq 0.8450554 
mean.oof .RSqg 
0.8331308 


模型 有 8 项 ,包括 截 距 和 7 个 预测 变量 。 其 中 两 个 预测 变量 有 铵 链 函 数 ， 这 就 是 浓度 和 染色 质 
变量 。 如 果 浓 度 大 于 3 ， 就 会 用 系数 0.7019 乘 以 铵 链 函 数 的 值 ， 否 则 这 一 项 就 是 0。 对 于 染色 质 ， 
如 果 它 的 值 小 于 3， 那 么 就 用 系数 乘 以 饮 链 函数 值 ， 否 则 这 项 就 是 0 | 


还 可 以 做 出 统计 图 。 第 一 张 图 是 用 plotmo () 函数 生成 的 , 它 展示 了 保持 其 他 预测 变量 不 变 ， 
某 个 预测 变量 发 生变 化 时 , 响应 变量 发 生 的 改变 ,你 可 以 清楚 地 看 到 匀 链 函数 对 浓度 所 起 的 作用 : 


> plotmo(earth.fit) 


述 命 命令 输出 如 下 。 




















malignant earth(class~., data=train, pmethod="cv", glm=list(family=binomial), degree=1, ncross=. 


1 thick 和 2 u.size 3 adhsn 
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通过 plota() 函数 ， 可 以 生成 按 类 别 标签 分 类 的 预测 概率 密度 图 
> plotd(earth.fit) 


述 命令 输出 如 下 。 





earth.fit response 
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0 
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下 面 看 看 变量 之 间 的 相对 重要 性 。 先 解释 一 下 ，nsubsets 是 精简 过 程 完成 之 后 包含 这 个 变 








量 的 模型 的 个 数 。 对 于 gcv 和 rss 列 ， 其 中 的 值 表示 这 个 变量 贡献 的 gcv 和 rss 值 的 减少 量 
和 rss 的 范围 都 是 0~100 ): 








> evimp (earth.fit) 
nsubsets gcv rss 


nucl 7 100.0 100.0 
u.size 6 44.2 44.8 
thick 5 23.8 25.1 
n.nuc 4 15.1 16.8 
chrom 3 8.3 10.7 
s.size 2 6.0 8.1 
adhsn 1 233 4.6 


我 们 再 看 一 下 模型 在 测试 集 上 的 表现 : 


> test .earth.probs <- predict (earth.fit, newdata = 
test, type = "response") 
> misClassError(testyY, test.earth.probs) 
[1] 0.0287 
> confusionMatrix(testY, test.earth.probs) 
0 1 
0 138 2 
1 4 65 




















(gcv 


这 完全 可 以 和 人 逻辑 斯 带 回归 模型 相 比 。 下 面 比较 前 面 讲 过 的 各 种 模型 , 看 看 哪个 模型 是 最 好 





的 选择 。 





3.5 ”模型 选择 


从 上 述 的 工作 中 , 你 能 得 到 什么 结论 ?我们 从 模型 中 计算 出 混淆 矩阵 和 错误 率 , 为 的 就 是 有 
一 个 依据 , 可 是 在 选择 分 类 模型 时 还 是 毫 无 头绪 。 对 于 分 类 模型 的 比较 , 受 试 者 工作 特征 ( ROC ) 
































2006 )。 在 ROC 图 中 ，Y 轴 是 真 阳 性 率 (TPR )，X 轴 是 假 阳性 率 (FPR )。 计 算 过 程 非常 简 身 


图 是 一 个 很 有 效 的 工具 。 简 言 之 , ROC 基 于 分 类 器 的 性 能 对 其 进行 可 视 化 、 组 织 和 选择 ( Fawcett， 





下 所 示 。 








TPR = 正确 分 类 的 阳性 样本 数 /所 有 阳性 样本 数 
FPR = 错误 分 类 的 阴性 样本 数 /所 有 阴性 样本 数 

















各， 如 


如 果 将 ROC 画 出 来 ， 可 以 生成 一 条 曲线 ， 然 后 可 以 算出 曲线 下 面积 了 。AUC 就 是 一 项 衡量 
分 类 器 性 能 的 有 效 指标 ,直观 地 说 ，AUC 等 于 一 个 观测 者 在 面 对 一 对 随机 选 出 的 案例 ( 其 中 一 个 























是 阳性 案例 , 一 个 是 阴性 案例 ) 时 , 能 正确 识别 出 阳性 案例 的 概率 ( HanleyJA, McNeil BJ, 1 
在 我 们 的 例子 中 ， 只 要 将 观测 者 换 成 我 们 的 算法 即 可 依 此 进行 评价 。 








982 )。 


要 在 R 中 画 出 ROC 图 ， 你 可 以 使 用 ROCR 包 。 我 认为 这 是 一 个 功能 强大 的 包 ， 它 可 以 让 你 只 


邮 
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用 3 行 代码 就 可 以 面 出 ROC 图 。 这 个 程序 包 还 配 有 一 个 网 站 ， 上 面 有 示例 和 演示 ， 你 可 以 通过 以 
下 网 址 找到 该 网 站 : 





http://roctr.bioinf.mpi-sb.mpg.de 


下 面 我 要 展示 4 个 不 同 的 ROC 图 : 全 特征 模型 、 使 用 BIC 选 择 特征 的 简化 模型 、MARS 模 型 和 
一 个 粳 糕 模型 。 这 个 所 谓 的 糟糕 模型 只 有 1 个 预测 特征 , 会 和 其 他 两 个 模型 形成 有 效 对 比 。 因 此 ， 
下 面 加 载 ROCR 包 ， 使 用 thick 这 个 特征 建立 这 个 性 能 糟糕 的 模型 。 为 简单 起 见 ， 我 们 将 其 命名 为 
bad.fit。 如 下 所 示 : 






































> library (ROCR) 
> bad.fit <- glm(class ~ thick, family = binomial, 
data = test) 
> test.bad.probs = predict (bad.fit, type = 
"response") #save 
probabilities 


现在 即 可 使 用 测试 数据 集 绘 制 ROC 图 ， 每 个 模型 3 行 代码 。 首 先 建立 一 个 对 象 ， 保 存 对 实际 
分 类 的 预测 概率 ， 然 后 使 用 这 个 对 象 建立 一 个 带 有 TPR 和 FPR 的 对 象 。 在 此 之 后 ， 使 用 plot () 
函数 绘制 ROC 图 。 我 们 从 全 特征 模型 ( 我 喜欢 称 之 为 全 模型 ) 开始 ， 它 就 是 我 们 在 3.2 节 建立 的 
那个 初始 模型 : 


























> pred.full <- prediction(test.probs, tests$class) 





下 面 是 带 有 TPR 和 FPR 的 performance 对 象 : 





> perf.full <- performance(pred.full, "tpr", "fpr") 
下 面 使 用 plot () 命令 画图 ， 图 的 标题 设 为 ROC， 参 数 col = 1 指定 曲线 颜色 为 黑色 : 
> plot (perf.full, main = "ROC", col = 1) 


上 述 命令 输入 如 下 。 





ROC 





1.0 
天 





True positive rate 
04 


0.2 
| 











0.0 





T T T T T T 
0.0 0.2 0.4 0.6 0.8 1.0 
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如 前 所 述 ， 曲 线 的 Y 轴 表示 TPR，X 轴 表示 FPR。 如 果 你 有 一 个 完美 无 缺 的 、 没 有 假 阳 性 错误 
的 分 类 器 ， 那 么 就 会 有 一 条 从 X 轴 0.0 处 垂直 上 升 的 线 。 如 果 模型 的 预测 和 随机 选择 没什么 区 别 ， 
那么 就 会 有 一 条 从 左下 角 到 右上 角 的 对 角 线 。 回 忆 一 下 , 全 模型 预测 错 了 5 个 样本 : 3 个 假 阳 性 和 
2 个 假 阴 性 ,为 了 便于 比较 , 可 以 使 用 同样 的 代码 加 上 其 他 模型 ,首先 加 上 使 用 BIC 建 立 的 模型 ( 参 
考 3.2 节 )， 如 下 所 示 : 

> pred.bic <- prediction(test.bic.probs, 
test$class) 


> perf.bic <- performance(pred.bic, "tpr", "fpr") 
> plot (perf.bic, col = 2, add = TRUE) 


plot () 命令 中 的 aaa = TURE 将 曲线 加 入 现 有 图 中 。 最 后 , 加 入 那个 表现 糟糕 的 模型 和 MARS 
模型 ， 并 加 入 一 个 图 例 ， 如 下 所 示 : 












































> pred.bad <- prediction(test.bad.probs, 
tests$class) 
> perf.bad <- performance(pred.bad, "tpr", "fpr") 
> plot (perf.bad, col = 3, add = TRUE) 
> pred.earth <- prediction(test.earth.probs, 
tests$sclass) 
> perf.earth <- performance(pred.earth, "tpr", 
"fpr") 
plot (perf.earth, col = 4, add = TRUE) 
legend(0.6, 0.6, c("FULL", "BIC", "BAD", 
"EARTH"), 1:4) 


vv 












































上 述 代码 片段 输出 如 下 。 
ROC 
© 一 
ol 一 
bd 一 
上 i 
& oo 
5 过 过 
2 FULL 
8 ~ | 国 BIC 
so od] | 国 BAD 
EE 国 EARTH 
QQ 一 
oo 
OJ 
T T T T T T 
0.0 02 04 06 0.8 1.0 
False positive rate 











可 以 看 到 ， 全 特征 模型 、BIC 模 型 和 MARS 模 型 基本 上 重 伙 在 一 起 。 显 而 易 见 ， 粮 糕 的 模型 
表现 得 和 我 们 预想 的 一 样 差 。 


现在 , 我 们 能 做 的 最 后 一 件 事 就 是 计算 AUC。 这 也 可 以 通过 ROCR 包 建立 performance 对 象 来 
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实现 ， 只 要 将 tpr 和 fpr 换 成 auc 妈 可。 代码 和 输出 如 下 所 示 : 


> performance(pred.full, "auc")@y.values 
[[1]] 

[1] 0.9972672 

> performance (pred.bic, "auc")@y.values 
[[1]] 

[1] 0.9944293 

> performance(pred.bad, "auc")@y.values 
[[1]] 

[1] 0.8962056 

> performance(pred.earth, "auc")@y.values 
[[1]] 

[1] 0.9952701 

































































最 高 的 AUC 值 是 全 模型 的 99.7%, BIC 模 型 是 99.4%, 糟糕 模型 是 89.6%, MARS 模 型 是 99.5%。 
所 以 ， 从 各 个 方面 来 看 ， 排 除 掉 糟 糕 模型 ， 其 他 几 个 模型 在 预测 能 力 方面 没有 什么 区 别 。 我 们 该 
怎么 做 ?一 个 简单 的 解决 方案 就 是 , 将 训练 集 和 测试 集 重新 随机 化 ,把 各 种 分 析 再 做 一 遍 ， 比 如 
使 用 60/40 的 划分 比例 和 一 个 不 同 的 随机 数 种 子 。 但 是 ， 如 果 我 们 还 是 得 到 相同 的 结果 ， 又 该 怎 
么 办 ? 我 认为 , 一 个 纯粹 的 统计 学 家 会 建议 选择 最 简约 的 模型 , 但 其 他 人 可 能 更 倾向 于 全 特征 模 
型 。 这 就 又 归结 到 各 种 因素 的 权衡 问题 了 ， 比 如 模型 准确 性 与 解释 性 、 简 约 性 与 扩展 性 之 间 的 权 
衡 。 在 本 章 的 例子 中 , 我 们 完全 可 以 选择 更 简单 的 模型 ， 它 具有 和 全 模型 一 样 的 正确 性 。 不 用 说 
你 也 能 知道 ， 仅 通过 GLM 或 判别 分 析 不 可 能 总 有 这 样 的 预测 效果 。 在 接 下 来 的 章节 中 ， 我 们 会 
继续 研究 这 个 问题 ， 使 用 一 些 更 复杂 的 技术 来 提高 模型 的 预测 能 力 。 机 器 学 习 的 美妙 之 处 就 在 
于 一 一 “条 条 大 路 通 罗 马 ”。 






































3.6 ”小结 


我 们 在 本 章 研究 了 如 何 使 用 基于 概率 的 线性 模型 预测 定性 响应 变量 , 介绍 了 三 种 方法 : 逻辑 
斯 蒂 回 归 、 判 别 分 析 和 MARS。 除 此 之 外 ,还 介绍 了 ROC 图 ,这 是 一 种 可 视 化 的 有 统计 意义 的 模 
型 选择 技术 。 我们 还 简要 讨论 了 需要 注意 的 模型 选择 问题 和 权衡 问题 。 在 后 续 的 音节 中 ,我 们 还 
会 使 用 乳腺 癌 数 据 集 ， 看 看 更 加 复杂 的 技术 在 这 个 数据 集 上 的 应 用 效果 。 



































线性 模型 中 的 高 级 特征 选择 
技术 








“我 发 现 数学 变 得 过 于 抽象 ， 已 经 不 合 我 意 了 ， 而 计算 机 科学 变 得 过 于 关心 细 枝 末 
节 试图 在 一 次 计算 中 存储 几 毫 秒 和 几 千 字 节 。 在 使 用 统计 学 解决 实际 问题 的 过 程 
中 ， 我 发 现 了 数学 和 计算 机 科学 的 结合 之 美 。 


以 上 引 自 斯 坦 福 大 学 罗伯特 ' 提 布 施 瓦 尼 教 授 ， 参 见 http://statweb.stanford.edu/~tibs/research 
page.html。 


迄今 为 止 ,我 们 研究 了 使 用 线性 模型 预测 定量 和 定性 结果 的 方法 ,着 重 讨论 了 特征 选择 技术 ， 
也 就 是 如 何 排除 无 用 的 或 不 需要 的 预测 变量 。 我 们 看 到 , 线性 模型 在 机 器 学 习 问 题 中 是 非常 有 效 
的 。 但 在 过 去 的 二 十 多 年 中 ， 人 们 已 经 开发 和 提炼 了 更 新 的 技术 ,它们 提供 的 预测 能 力 和 解释 性 
已 经 远 远 超过 了 我 们 在 前 面 章 节 中 讨论 过 的 线性 模型 。 当 今 很 多 数据 集 具 有 数量 庞大 的 特征 ， 即 
使 与 观测 值 的 数量 相 比 也 毫 不 逊色 , 这 正如 人 们 所 称 一 一 高 维 性 。 如 果 你 曾经 参与 过 基因 组 的 研 
究 ， 那么 这 个 问题 就 不 证 自明 了 。 此 外 ,， 随 着 我 们 要 处 理 的 数据 规模 不 断 增 大 ， 最 优 子 集 和 和 逐步 
特征 选择 这 样 的 技术 会 造成 难以 承受 的 时 间 成 本 一 一 即使 使 用 高 速 计算 机 。 我 说 的 可 不 是 以 分 钟 
计 的 时 间 ， 在 很 多 情况 下 ， 要 得 到 一 个 最 优 子 集 的 解 需要 花费 数 小 时 。 

这 种 情况 下 有 更 好 的 解决 方式 。 本 章 会 讨论 正则 化 的 概念 , 正则 化 会 对 系数 进行 限制 ,甚至 
将 其 缩减 到 0。 现 在 有 很 多 种 方法 和 方法 组 合 可 以 实现 正则 化 ,我们 会 集中 讨论 岭 回 归 和 最 小 化 
绝对 收缩 和 选择 算 子 ， 最 后 讨论 弹性 网 络 ， 它 将 前 面 两 种 算法 的 优点 合 二 为 一 。 



























































4.1 正则 化 简介 


你 应 该 还 记得 我 们 的 线性 模型 形式 为 Y= Bo+ Bjxi1 +… + Bx,+e， 还 有 最 佳 拟 合 试 图 最 小 化 
RSS。RSS 是 实际 值 减 去 估计 值 的 差 的 平方 和 ， 可 以 表示 为 el*+ey+…+ey。 


通过 正则 化 ,我 们 会 在 RSS 的 最 小 化 过 程 中 加 入 一 个 新 项 ， 称 之 为 收缩 惩罚 。 这 个 惩罚 项 包 
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含 了 一 个 希腊 字母 4 以 及 对 5 系数 和 权重 的 规范 化 结果 。 不 同 的 技术 对 权重 的 规范 化 方法 都 不 尽 相 
同 ， 我 们 随后 都 要 进行 相应 的 讨论 。 简 言 之 ， 我 们 的 模型 中 需要 最 小 化 ， 也 就 是 RSS + 4 ( 规范 
化 后 的 系数 )。 我 们 会 对 4 进行 选择 ， 在 模型 构建 过 程 中 ， 4 被 称 为 调 优 参数 。 请 记 住 ， 如 果 
4=0， 模 型 就 等 价 于 OLS， 因 为 规范 化 项 目 都 被 抵消 了 。 


那么 , 正则 化 对 我 们 来 说 意味 着 什么 ”正则 化 为 什么 会 起 作用 ? 首先 , 正则 化 方法 在 计算 上 
非常 有 效 。 如 果 使 用 最 优 子 集 法 , 我 们 需要 在 一 个 大 数据 集 上 测试 2 个 模型 , 这 肯定 是 不 可 行 的 。 
如 果 使 用 正则 化 方法 ， 对 于 每 个 4 值 ， 我 们 只 需 拟 合 一 个 模型 ， 因 此 效率 会 有 极 大 提升 。 另 一 个 
理由 是 我 们 在 前 言 讨论 过 的 偏差 -方差 权衡 问题 。 在 线性 模型 中 ， 响 应 变量 和 预测 变量 之 间 的 关 
系 接近 于 线性 ,最 小 二 乘 估 计 接 近 于 无 偏 , 但 可 能 有 很 高 的 方差 。 这 意味 着 ,训练 集中 的 微小 变 
动 会 导致 最 小 二 乘 系数 估计 结果 的 巨大 变动 ( James，2013 )。 正 则 化 通过 恰当 地 选择 1 和 规范 化 ， 
可 以 使 偏差 -方差 权衡 达到 最 优 ， 从 而 提高 模型 拟 合 的 效果 。 最 后 ， 系 数 的 正则 化 还 可 以 用 来 解 
决 多 重 共 线 性 的 问题 。 
































4.1.1 ”上 岭 回归 


我 们 先 研究 什么 是 岭 回 归 ， 以 及 它 可 以 做 什么 和 不 能 做 什么 。 在 岭 回 归 中 ,规范 化 项 是 所 有 
系数 的 平方 和 ， 称 为 L2-norm (L2 范 数 )。 在 我 们 的 模型 中 就 是 试图 最 小 化 RSS + A(sump7)。 当 4 
增加 时 ， 系 数 会 缩小 ， 趋 向 于 0 但 永远 不 会 为 0。 岭 回归 的 优点 是 可 以 提高 预测 准确 度 , 但 因为 它 
不 能 使 任何 一 个 特征 的 系数 为 0，， 所 以 在 模型 解释 性 上 会 有 些 问 题 ， 你 需要 多 费 一 些 层 舌 。 为 了 
解决 这 个 问题 ， 我 们 使 用 LASSO。 






































4.1.2 LASSO 


区 别 于 岭 回 归 中 的 L2-norm，LASSO 使 用 L1-norm， 即 所 有 特征 权重 的 绝对 值 之 和 ， 也 就 是 
要 最 小 化 RSS + A(sumlBj)。 这 个 收缩 惩罚 项 确实 可 以 使 特征 权重 收缩 到 0， 相 对 于 上 岭 回 归 ， 这 是 
一 个 明显 的 优势 ， 因 为 可 以 极 大 地 提高 模型 的 解释 性 。 


L1-norm 为 什么 能 够 使 权重 (或 者 系数 ) 变 为 0? 其 中 的 数学 解释 已 经 超过 了 本 书 范围 
( Tibsharini, 1996 )。 


如 果 LASSO 这 么 好 , 那 还 要 岭 回 归 做 什么 ?” 话 别 说 得 这 么 急 ! 存在 高 共 线 性 或 高 度 两 两 相关 
的 情况 下 ,LASSO 可 能 会 将 某 个 预测 特征 强制 删除 ， 这 会 损失 模型 的 预测 能 力 。 举 例 来 说 ， 如 果 
寺 征 A 和 B 都 应 该 存在 于 模型 之 中 , 那么 LASSO 可 能 会 将 其 中 一 个 的 系数 缩减 到 0。 下 面 的 引言 非 
常 好 地 总 结 了 这 个 问题 : 


“如 果 较 少数 目的 预测 变量 有 实际 系数 ,其 余 预 测 变量 的 系数 要 么 非常 小 ,要 么 为 0， 
那么 在 这 样 的 情况 下 , LASSO 性 能 更 好 。 当 响应 变量 是 很 多 预测 变量 的 函数 ， 而 且 预 测 
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变量 的 系数 大 小 都 差不多 时 ， 岭 回归 表现 得 更 好 。 





James，2013 


























还 是 存在 两 全 其 美的 机 会 的 ， 这 就 引出 了 我 们 的 下 一 个 主题 : 弹性 网 络 。 





4.1.3 ”弹性 网 络 


弹性 网 络 的 强大 之 处 在 于 , 它 既 能 做 到 岭 回 归 不 能 做 的 特征 提取 , 也 能 实现 LASSO 不 能 做 的 
夺 征 分 组 。 重申 一 下 ,LASSO 倾 向 于 在 一 组 相关 的 特征 中 选择 一 个 ,忽略 其 他 。 弹 性 网 络 包含 了 
一 个 混合 参数 a， 它 和 4 同时 起 作用 。a 是 一 个 0 和 1 之 间 的 数 ,， 4 和 前 面 一 样 ， 用 来 调节 惩罚 项 的 大 
小 。 请 注意 ， 当 a 等 于 0 时 ， 弹 性 网 络 等 价 于 岭 回 归 ; 当 a 等 于 1 时 ， 弹 性 网 络 等 价 于 LASSO。 实 
质 上 ， 我 们 通过 对 p 系 数 的 二 次 项 引入 一 个 第 二 调 优 和 参数， 将 Ll 惩罚 项 和 L2 惩 罚 项 混合 在 一 起 。 
通过 最 小 化 (RSS +X(1 -a)(sumlB8)/2 + a(sumlBj)]N) 完成 目标 。 


下 面 我 们 就 来 试 试 这 些 技术 。 使 用 leaps 、glmnet 和 caret 包 在 下 面 的 商业 案例 中 选择 合适 的 特 
征 并 生成 合适 的 模型 。 


















































4.2 商业 案例 


本 章 依 然 致 力 于 癌症 数据 的 研究 一 一 些 处 案例 是 前 列 腺 癌 。 虽然 这 个 数据 集 比较 小 ,只 有 97 
个 观测 和 9 个 变量 ,但 通过 与 传统 技术 的 比较 ， 完 全 可 以 使 你 掌握 正则 化 技术 的 发 展 。 























4.2.1 业务 理解 


斯 坦 福 大 学 医疗 中 心 提 供 了 97 个 病人 的 术 前 前 列 腺 特异 性 抗原 (PSA ) 数据 ， 这 些 病人 将 要 
接受 彻底 的 前 列 腺 切除 术 ( 切除 全 部 前 列 腺 )， 以 治疗 前 列 腺 癌 。 美 国 癌症 学 会 估计 ，2014 年 有 
30 000 名 美国 男性 死 于 前 列 腺 癌 (http://www.cancer.org )。PSA 是 前 列 腺 分 泌 的 一 种 蛋白 质 ， 发 现 
于 前 列 腺 癌 患 者 的 血液 。 我 们 的 目标 是 , 通过 临床 检测 提供 的 数据 建立 一 个 预测 模型 。 对 于 患者 
在 手术 后 能 够 或 应 该 恢复 到 什么 程度 ， 与 其 他 指标 相 比 ，PSA 可 能 是 一 个 更 有 效 的 预后 指标 。 手 
术 之 后 ， 医 生 会 在 各 个 时 间 区 间 检 查 患 者 的 PSA 水 平 ， 并 通过 各 种 公式 确定 患者 是 否 康复 。 术 前 
预测 模型 和 术 后 数据 ( 这 里 没有 提供 ) 互相 配合 ,就 可 能 提高 前 列 腺 癌 护 理 的 水 平 ， 造福 于 每 年 
数 以 千 计 的 患者 。 


































































































4.2.2 ”数据 理解 和 数据 准备 
收集 自 97 位 男性 的 数据 集 保存 在 一 个 具有 10 个 变量 的 数据 框 中 ， 如 下 所 示 。 
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DUDUDODO 














是 ，0= 否 )。 





lcavol: 肿瘤 体积 的 对 数值 

lweight: 前 列 腺 重量 的 对 数值 

age: 患者 年 龄 ( 以 年 计 ) 

lbph: 良性 前 列 腺 增生 (BPH ) 量 的 对 数值 ， 非 癌症 性 质 的 前 列 腺 增生 。 

svi: 凡 : 精 宫 侵 入 ， 一 个 指标 变量 ， 表 示 瘤 细胞 是 否 已 经 透 过 前 列 腺 壁 侵入 贮 精 宫 〈1= 





























口 lcp: 包 膜 穿 透 度 的 对 数值 ， 表 示 瘤 细胞 扩散 到 前 列 腺 包 膜 之 外 的 程度 。 
口 gleason: 患者 的 Gleason 评 分 ; 由 病理 学 家 进行 活体 检查 后 给 出 ( 2~10 )， 表 示 癌 细胞 的 


























变异 程度 一 一 评分 越 高 ， 程 度 越 危 险 。 

口 bgg45: Gleason 评 分 为 4 或 5 所 占 的 百分比 (高 等 级 癌症 )。 
口 lpsa: PSA 值 的 对 数值 ， 响 应 变量 。 
D train: 一 个 逻辑 向 量 (TRUE 或 FALSE， 用 来 区 分 训练 数据 和 测试 数据 )。 














这 个 数据 集 包含 在 ElemStatLearn 这 个 R 包 内 。 加 载 所 需 的 程序 包 和 数据 框 之 后 ， 查 看 变量 
及 变量 之 间 可 能 存在 的 联系 ， 如 下 所 示 : 


> library (ElemStatLearn) #contains the data 


是 WO 


加 载 程序 包 之 后 ， 





library (car) #package to calculate Variance Inflation Factor 
library (corrplot) #correlation plots 

library (leaps) #best subsets regression 

library (glmnet) #allows ridge regression, LASSO and elastic net 
library (caret) #parameter tuning 


调 出 prostate 数 据 集 ， 查 看 数据 结构 ， 如 下 所 示 : 


> data(prostate) 


> str(prostate) 
'data.frame':97 


Obs. of 10 variables: 


$ lcavol : num -0.58 -0.994 -0.511 -1.204 0.751 ... 
$ lweight : num 2.77 3.32 2.69 3.28 3.43 ... 

$ age : int 50 58 74 58 62 50 64 58 47 63 ... 

$ lbph : num -1.39 -1.39 -1.39 -1.39 -1.39 ... 

$ svi : int 0000000000 ... 

$ lcp : num -1.39 -1.39 -1.39 -1.39 -1.39 ... 

$ gleason : int 6676666666 ... 

$ pgg45 : int 00200000000 ... 

$ lpsa : num -0.431 -0.163 -0.163 -0.163 0.372 ... 
$ train : logi TRUE TRUE TRUE TRUE TRUE TRUE ... 


检查 数据 结构 会 发 现 几 个 问题 , 需要 特别 注意 。 检查 数据 集 的 特征 就 会 发 现 , svi lcp、gleason 


和 pgg45 的 前 10 个 观测 值 都 具有 相同 的 数值 ， 只 有 一 个 例外 


证 这 些 特征 作为 输入 从 














gleason 的 第 三 个 观测 值 。 为 了 保 
地 征 是 确实 可 行 的 ， 我 们 可 以 做 出 统计 图 或 表格 来 理解 数据 。 使 用 下 面 的 











plot () 命 令 ， 将 整个 数据 框 作为 输入 值 ， 即 可 建立 散 点 图 矩阵 ， 如 下 所 示 : 


> plot (prostate) 
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上 述 命令 输出 如 下 。 
el 3 ee ep" 卡 : 
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这 么 多 变量 放 在 一 张 图 上 确实 有 点 让 人 搞 不 清 状 况 ， 所 以 我 们 循序 渐进 。 可 以 看 出 ,结果 变 




















量 Ilpsa 和 预测 变量 lcavol 之 间 确 实 存 在 明显 的 线性 关系 。 还 可 以 看 出 , 这 些 特征 变量 的 离散 度 是 比 
较 合 适 的 ， 而 且 在 训练 集 和 测试 集 之 间 的 分 布 也 比较 平衡 ， 可 能 的 例外 只 有 Gleason 评 分 这 个 特 
征 。 请 注意 ， 这 个 数据 集中 ，Gleason 评 分 只 有 4 个 值 。 如 果 看 一 下 位 于 train 和 gleason 相 交点 的 那 
个 图 ， 就 会 发 现 ， 有 一 个 Gleason 评 分 值 既 不 属于 测试 集 ， 也 不 输入 训练 集 。 这 可 能 会 使 我 们 的 
分 析 过 程 产生 问题 , 需要 进行 数据 转换 。 所以, 我 们 专门 为 这 个 特征 建立 一 个 统计 图 , 如 下 所 示 : 
































> plot (ProstateS$gleason) 























` 丰 全 -人 大人 
上 述 命 令 输 出 如 下 。 
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现在 就 看 出 问题 了 。 每 个 点 代表 一 个 观测 ，X 轴 是 数据 框 中 观测 的 编号 。 只 有 1 个 观测 的 
Gleason 评 分 是 8.0， 只 有 5 个 观测 的 Gleason 评 分 是 9.0。 你 可 以 建立 一 个 特征 值 表格 来 查看 确切 的 
数量 。 如 下 所 示 : 
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> table(prostate$gleason) 
6 7 8 9 
35 56 1 5 


怎么 办 呢 ? 我 们 有 以 下 3 种 选择 : 

口 完全 删除 这 个 特征 ; 

口 仅 删 除 值 为 8.0 和 9%.0 的 那些 评分 ; 

口 对 特征 重新 编码 ， 建 立 一 个 指标 变量 。 























我 认为 ， 如 果 建 立 一 个 横 轴 为 Gleason Score， 纵 轴 为 Log of PSA 的 箱 线 图 ， 会 对 我 们 的 选择 
有 所 帮助 。 在 前 面 的 章节 中 ， 我 们 使 用 ggplot2 包 建立 箱 线 图 ， 但 R 的 基础 包 也 可 以 建立 箱 线 图 ， 
如 下 所 示 : 


















































> boxplot (prostate$lpsa ~ prostates$sgleason, xlab = "Gleason Score", 
ylab = "Log of PSA") 
、 人 大 人 
上 述 命令 输出 如 下 。 
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看 了 上 面 的 图 ， 我 认为 最 好 的 选择 是 ， 将 这 个 特征 转换 为 一 个 指标 变量 ，0 表 示 评 分 为 6，1 
表示 评分 为 7 或 更 高 。 删 除 特 征 可 能 会 损失 模型 的 预测 能 力 。 缺 失 值 也 可 能 会 在 我 们 将 要 使 用 的 
glmnet 包 中 引起 问题 。 








你 可 以 非常 简单 地 实现 对 指标 变量 的 编码 ， 通 过 一 行 代码 即 可 。 使 用 ifelse () 命 令 ， 指定 
你 想 在 数据 框 中 转换 的 列 ， 然 后 按照 这 个 规则 转换 : 如 果 观 测 值 的 特征 值 为 x， 则 将 其 编码 为 y， 
否则 将 其 编码 为 z。 
































> Drostate$gleason <- ifelse(prostates$gleason == 6, 0, 1) 
同样 ， 我 们 建立 一 个 表格 ， 验 证 数据 转换 结果 确 如 预想 。 如 下 所 示 : 


> table(prostate$gleason) 
0 1 
35 62 
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转换 结果 完美 无 缺 ! 既然 散 点 图 和 矩阵 比较 难以 理解 ,我 们 就 再 看 看 相关 性 统计 图 , 它 可 以 表 
示 特 征 之 间 是 否 存在 相关 性 或 依赖 。 先 用 cor ( ) 函数 建立 一 个 相关 性 对 象 , 然后 利用 corrplot 库 中 
的 corrplot .mixed() 图 数 做 出 相关 性 统计 图 ， 如 下 所 示 : 











> p.cor = cor(prostate) 
> corrplot .mixed(p.cor) 


上 述 命令 输出 如 下 。 





ca @@ee@@ 


Iweight 
age 
lbph 
0.54 svi 全 本 3 3 
0.68 0.67 | Icp 入 全 
0.5 0.54 les 人 SO 


0.63 | 0.65 pgg45 








0.73 0.57 | 0.55 | 0.48 Ipsa 








train 





这 样 又 跳出 两 个 问题 。 首 先 ，PSA 和 肿瘤 体积 的 对 数 (1cavol ) 高 度 相 关 。 回 想 一 下 ,在 
散 点 图 矩阵 中 ,它们 表现 出 很 强 的 线性 相关 关系 。 其 次 ， 多 重 共 线 性 是 个 问题 。 例 如 ， 肿 瘤 体积 
还 与 包 膜 穿 透 相关 ， 而 包 膜 穿 透 还 与 贮 精 宫 侵入 相关 。 这 真是 一 个 很 有 趣 的 机 器 学 习 实 战例 子 ! 


开始 机 器 学 习 之 前 , 必须 先 建立 训练 数据 集 和 测试 数据 集 。 既然 观 测 值 中 已 经 有 一 个 特征 指 
明 这 个 观测 值 是 否 属于 训练 集 ， 我们 就 可 以 使 用 subset () 命 令 将 train 值 为 TRUE 的 观测 值 分 到 
训练 集中 ， 将 train 值 为 FALSE 的 观测 值 分 到 测试 集 。 将 train 删 除 也 是 必须 的 ， 因 为 我 们 不 想 
把 它 作 为 预测 特征 。 如 下 所 示 : 


> train <- Subset (prostate, train == TRUE)[, 1:9] 

> str(train) 

'data.frame':67 obs. of 9 variables: 

$ lcavol : num -0.58 -0.994 -0.511 -1.204 0.751 ... 
$ lweight: num 2.77 3.32 2.69 3.28 3.43 ... 

$ age : int S50 58 74 58 62 50 58 65 63 63 ... 

$ lbph : num -1.39 -1.39 -1.39 -1.39 -1.39 ... 
$ svi : int 0000000000 ... 
$ 
$ 
$ 
$ 









































lcp : num -1.39 -1.39 -1.39 -1.39 -1.39 ... 
gleason: num 0010000001 ... 

pgg45 : int 0020000000 30 ... 

lpsa : num -0.431 -0.163 -0.163 -0.163 0.372 ... 
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> test <- Subset (prostate, train == FALSE)[，1:9] 
> str(test) 
'data.frame':30 obs. of 9 variables: 


$ lcavol : num 0.737 -0.777 0.223 1.206 2.059 ... 

$ lweight: num 3.47 3.54 3.24 3.44 3.5 ... 

$ age : int 64 47 63 57 60 69 68 67 65 54 ... 

$ lbph : num 0.615 -1.386 -1.386 -1.386 1.475 ... 
$ svi : int 0000000000 ... 

$ lcp : num -1.386 -1.386 -1.386 -0.431 1.348 ... 
$ gleason: num 0001100100 ... 

$ pgg45 : int 000520002000 ... 

$ lpsa : num 0.765 1.047 1.047 1.399 1.658 ... 





4.3 ”模型 构建 与 模型 评价 


数据 已 经 准备 好 了 , 我 们 将 开始 构建 模型 。 为 了 进行 对 比 , 先 用 最 优 子 集 回归 建立 一 个 模型 ， 
像 我 们 在 前 两 章 中 做 的 那样 ， 然 后 使 用 正则 化 技术 建立 模型 。 








4.3.1 最 优 子 集 
下 面 的 代码 (或 者 说 大 部 分 代码 ) 基本 上 是 我 们 在 第 2 章 中 使 用 过 的 代码 的 翻版 。 通 过 
regsubsets () 命令 建立 一 个 最 小 子 集 对 象 ， 然后 指定 训练 数据 集 。 选 择 出 的 特征 随后 用 在 测试 
集 上 ， 通 过 计算 均 方 误差 来 评价 模型 。 
我 们 建立 模型 的 语法 为 jpsa~. ， 使 用 波形 符号 加 句号 说 明 ， 要 使 用 数据 框 中 除 响应 变量 之 
外 的 所 有 变量 进行 预测 。 如 下 所 示 : 









































> subfit <- regsubsets(lpsa ~ ., data = train) 

模型 建立 之 后 ， 你 可 以 通过 两 行 代码 得 到 最 优 子 集 。 第 一 行 代码 将 摘要 模型 写 入 一 个 对 象 ， 
然后 从 这 个 对 象 提取 各 个 子 集 ， 使 用 whi ch .min () 命令 确定 最 优 子 集 。 在 本 例 中 ， 我 们 使 用 第 2 
章 中 讨论 过 的 贝 叶 斯 信息 准则 ， 如 下 所 示 : 














> b.sum <- summary (subfit) 
> which.min(b.sums$bic) 
[1] 3 


结果 告诉 我 们 ， 三 特征 模型 具有 最 小 的 BIC 值 。 可 以 通过 一 个 统计 图 查看 模型 性 能 和 子 集 组 
合 之 间 的 关系 ， 如 下 所 示 : 


























> plot(b.sum$bic, type = "1", xlab = "# of Features", ylab = "BIC", 
main = "BIC score by Feature Inclusion") 


上 述 命令 输出 如 下 页 图 。 
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对 实际 模型 做 出 统计 图 ， 可 以 让 我 们 进行 更 详细 的 检查 。 如 下 所 示 : 
> plot(subfit, scale = "bic", main = "Best Subset Features") 
述 命令 输出 如 下 。 
Best Subset Features 
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于 是 ,上 图 告诉 我 们 具有 最 小 BIC 值 的 模型 中 的 3 个 特 生 


F 是 : lcavol、 lweight 和 gleason。 








值得 注意 的 是 ，1cavol 包 含 在 所 有 模型 组 合 之 中 ， 这 与 我 们 之 前 的 数据 探索 结果 是 一 致 的。 现 
在 ,可 以 在 测试 集 上 试验 模型 了 , 但 要 先 用 模型 的 拟 合 值 与 实际 值 画 一 张 图 ,看 看 最 终 解 中 的 线 











性 关系 ， 并 检查 同方 差 性 。 需 要 用 以 上 3 个 变 
所 以 把 


行 对 比 了 。 如 下 所 示 : 




















> ols <- lm(lpsa ~ lcavol + lweight + gleason, 


> plot(olss$fitted.values, trains$lpsa, xlab 
"Actual", main = "Predicted vs Actual") 


述 命令 输出 如 下 页 图 。 


量 建立 一 个 线性 模型 ， 
它 存储 在 名 为 ols 的 对 象 中 。 然 后 ， 使 用 OLS 拟 合 























因为 是 用 OLS 建 立 的 模型 ， 
| 练 集中 的 实际 值 进 

















出 的 模型 就 可 以 同 计 


data = train) 
"Predicted", ylab 
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从 图 中 可 以 看 出 , 在 训练 集 上 线性 拟 合 表现 得 很 好 ,， 也 不 存在 异 方差 性 。 然 后 看 看 模型 在 测 
试 集 上 的 表现 ,使 用 predict () 函数 并 指定 newdata = test， 如 下 所 示 : 





> pred.subfit <- predict(ols, newdata = test) 
> plot (pred.subfit, test$lpsa , xlab = "Predicted", ylab = 
"Actual", main = "Predicted vs Actual") 


对 象 中 的 值 可 以 用 来 生成 统计 图 ， 表 示 预 测 值 和 实际 值 之 间 的 关系 。 如 下 图 所 示 。 

















Predicted vs Actual 
口 
DD | Le 
| 
oo 
己 本 + 
< | [+ ° 8 > 00 
oO oo 
NN 二 0 0 ° 
6 总 o 
oo 
一 站 0 0° 
口 
T T T | T T T 
1.0 1.5 2.0 2.5 3.0 3 4.0 
Predicted 














这 个 图 还 不 是 太 难 看 。 总 体 来 说 ， 图 中 呈现 一 种 线性 关系 ， 只 不 过 当 PSA 值 比较 高 时 ， 有 两 
个 离 群 点 。 结 束 本 小 节 之 前 ， 我 们 需要 计算 均 方 误差 ， 以 便 在 不 同 模型 构建 技术 之 间 进 行 比较 。 
这 非常 简单 ， 只 要 算出 残 差 并 求 出 残 差 平方 的 均值 即 可 ， 如 下 所 示 : 





> resid.subfit <- test$lpsa - pred.subfit 
> mean(resid.subfit^2) 
[1] 0.5084126 


MSE 值 为 0.508， 以 此 为 基准 继续 下 面 的 内 容 。 
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4.3.2 ”上 岭 回归 


在 岭 回归 中 ， 我 们 的 模型 会 包括 全 部 8 个 特征 ， 所 以 岭 回 归 模 型 与 最 优 子 集 模 型 的 比较 真是 
令 人 期 待 啊 。 我 们 要 使 用 的 程序 包 glmnet 实 际 上 已 经 加 载 过 了 。 这 个 程序 包 要 求 输入 特征 存储 在 
矩阵 中 ， 而 不 是 在 数据 框 中 。 岭 回归 的 命令 形式 为 glmnet (x= 输 入 矩阵 ，y= 响 应 变量 ，family= 
分 布 函 数 ，alpha=0)。 这 里 的 alpha 为 0 时 ， 表 示 进 行 岭 回归 ; alpha 为 1 时 ， 表 示 进 行 LASSO。 


要 准备 好 供 glmnet 使 用 的 训练 集 数据 也 很 容易 , 使 用 as .matrix() 函数 处 理 输入 数据 , 并 建 
立 一 个 向 量 作为 响应 变量 ， 如 下 所 示 : 


二 





























> x <- as.matrix(train[, 1:8]) 
>y <- train[, 9] 


现在 可 以 使 用 岭 回 归 了 , 我 们 把 结果 保存 在 一 个 对 象 中 ,可 以 为 对 象 起 一 个 恰当 的 名 字 ， 比 
如 ridge。 这 里 有 一 点 非常 重要 ,请 一 定 注意 : glmnet 包 会 在 计算 4 值 之 前 首先 对 输入 进行 标准 化 ， 
然后 计算 非 标准 化 系数 。 你 需要 指定 响应 变量 的 分 布 为 gaussian， 因 为 它 是 连续 的 ; 还 要 指定 
alpha = 0， 表 示 进 行 岭 回归 。 如 下 所 示 : 








> ridge <- glmnet (x, y, family = "gaussian", alpha = 0) 
这 个 对 象 包含 了 我 们 进行 模型 评价 所 需 的 所 有 信息 。 首 先 尝试 print () 命令 ， 它 会 展示 非 0 
系数 的 数量 , 解释 偏差 百分比 以 及 相应 的 4 值 。 程 序 包 中 算法 默认 的 计算 次 数 是 100, 但 如 果 偏 差 
百分比 在 两 个 1 值 之 间 的 提高 不 是 很 显著 的 话 , 算法 会 在 100 次 计算 之 前 停止 。 也 就 是 说 , 算法 收 
全 于 最 优 解 。 为 了 节省 篇 幅 ， 我 只 在 下 面 列 出 了 前 5 个 和 后 10 个 2 结果 : 


> print (ridge) 
































Call: glmnet(x = x, y = y, family = "gaussian", alpha = 0) 
Df %Dev Lambda 
[1,] 8 3.801e-36 878.90000 
[2,] 8 5.591e-03 800.80000 
[3,] 8 6.132e-03 729.70000 
[4,] 8 6.725e-03 664.80000 
[5,] 8 7.374e-03 605.80000 
[91,] 8 6.859e-01 0.20300 
[92,] 8 6.877e-01 0.18500 
[93,] 8 6.894e-01 0.16860 
[94,] 8 6.909e-01 0.15360 
[95,] 8 6.923e-01 0.13990 
[96,] 8 6.935e-01 0.12750 
[97,] 8 6.946e-01 0.11620 
[98,] 8 6.955e-01 0.10590 
[99,] 8 6.964e-01 0.09646 
[100,] 8 6.971e-01 0.08789 


以 第 100 行 为 例 。 可 以 看 出 非 0 系 数 ， 即 模型 中 包含 的 特征 的 数量 为 8。 请 记 住 ,在 岭 回 归 中 ， 
这 个 数 是 不 变 的 。 还 可 以 看 出 解释 偏差 百分比 为 0.6971， 以 及 这 一 行 的 调 优 系数 4 的 值 为 0.08789。 
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此 处 即 可 决定 选择 在 测试 集 上 使 用 哪个 4。 这 个 4 值 应 该 是 0.08789 


, 但 是 为 了 简单 起 见 , 在 测试 集 


上 可 以 试 一 下 0.10。 此 时 ,一些 统计 图 是 非常 有 用 的 。 我 们 先 看 看 程序 包 中 默认 的 统计 图 ， 设 定 





label = TRUE 可 以 给 曲线 加 上 注释 ， 如 下 所 示 : 
> plot (ridge, label = TRUE) 


上 述 命令 输出 如 下 。 
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在 默认 图 中 ，Y 轴 是 系数 值 ，X 轴 是 L1 范 数 ， 图 中 显示 了 系数 值 和 L1 范 数 之 间 的 关系 。 图 的 
上 方 有 另 一 条 X 轴 ， 其 上 的 数值 表示 模型 中 的 特征 数 。 查 看 统计 图 的 一 种 更 好 方式 是 ， 看 系数 值 
如 何 随 着 4 的 变化 而 变化 。 只 需 在 plot () 命 令 中 稍稍 调整 ， 加 上 参数 xvar="1lambda" 即 可 。 男 
一 种 选择 是 ， 看 系数 值 如 何 随 解释 偏差 百分比 变化 ， 将 1amaa 换 成 aev 即 可 。 


















































> plot (ridge, xvar = "lambda", label = TRUE) 
、 八大 全 
上 述 命令 输出 如 下 。 
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这 张 图 非常 有 价值 ， 因 为 它 表 明 ， 当 2 值 减 小 时 ， 压 缩 参数 随 之 减 小 ， 而 系数 绝对 值 随 之 增 
大 。 要 想 看 看 当 1 为 一 个 特定 值 时 的 系数 值 ， 可 以 使 用 coef () 命令。 现在 ， 看 一 下 当 14 为 0.1 时 ， 





系数 值 是 多 少 。 指 定 参数 s=0 .1， 同 时 指定 参数 exact=TRUE， 





告诉 glmnet 在 拟 合 模 型 时 使 用 具 
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体 的 4 值 ， 而 不 是 从 4 值 的 两 侧 选 值 插入 。 如 下 所 示 : 


> ridge.coef <- coef(ridge, s = 0.1, exact = TRUE) 
> ridge.coef 
9 x 1 sparse Matrix of class "dgCMatrix" 


下 
(Intercept) 0.13062197 
lcavol 0.45721270 
lweight 0.64579061 
age -0.01735672 
lbph 0.12249920 
svi 0.63664815 
lcp -0.10463486 
gleason 0.34612690 
pgg45 0.00428580 





需要 特别 注意 的 是 ，age、1lcp 和 pgg45 的 系数 非常 接近 0， 但 还 不 是 0。 别 忘 了 再 看 一 下 偏 
差 与 系数 之 间 的 关系 图 : 








> plot (ridge, xvar = "dev", label = TRUE) 
述 命令 输出 如 下 。 
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Fraction Deviance Explained 


同 前 两 张 图 相 比 ， 我 们 可 以 从 这 张 图 中 看 出 ， 当 4 减 小 时 ， 系 数 会 增 大 ， 解 释 偏差 百分比 也 
会 增 大 。 如 果 将 4 值 设 为 0， 就 会 忽略 收缩 惩罚 ， 模 型 将 等 价 于 OLS。 


为 了 在 测试 集 上 证 明 这 一 点 ， 需 要 转换 特征 ， 像 我 们 在 训练 集 上 做 的 一 样 : 




















Tr 





> newx <- as.matrix(test[, 1:8]) 


然后 , 使 用 predict () 函数 建立 一 个 名 为 ridge.y 的 对 象 , 指 定 参 数 tvype="response" 以 及 41 
值 为 0.10， 画 出 表示 预测 值 和 实际 值 关 系 的 统计 图 ， 如 下 所 示 : 








> ridge.y <- predict (idge，newx = newx, type = "response", s = 
0.1) 
> plot(ridge.y, tests$lpsa, xlab = "Predicted", ylab = "Actual",main 


= "Ridge Regression") 
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上 述 命令 输出 如 下 。 
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表示 岭 回 归 中 预测 值 和 实际 值 关 系 的 统计 图 看 上 去 与 最 优 子 集 的 非常 相似 ,同样 地 ， 在 PSA 
测量 结果 比较 大 的 一 端 有 两 个 有 趣 的 离 群 点 ,在 实际 情况 下 ,我 建议 对 离 群 点 进行 更 深入 的 研究 ， 
搞 清楚 是 它们 真 的 与 众 不 同 , 还 是 我 们 忽略 了 什么 。 这 就 是 领域 专家 的 用 武之 地 。 与 MSE 基 准 的 
比较 可 能 告诉 我 们 一 些 不 同 的 事 。 先 算出 残 差 ， 然 后 算出 残 差 平 方 的 平均 值 : 
> ridge.resid <- ridge.y - test$lpsa 


> mean(ridge.resid^2) 
[1] 0.4789913 


岭 回 归 给 出 的 MSE 稍 好 一 点 E。 现在 是 时 候 检 验 LASSO 了 , 看 看 我 们 能 否 将 误差 再 减少 一 些 。 

















4.3.3 LASSO 


下 面 运行 LASSO 就 非常 简单 了 ， 只 要 改变 岭 回 归 模 型 的 一 个 参数 即 可 。 也 就 是 说 ， 在 
glmnet () 语 法 中 将 alpha=0 变 为 alpha=1。 运 行 代码 ， 看 看 模型 的 输出 ,检查 前 5 个 和 后 10 














个 拟 合 结果 : 
> lasso <- glmnet (x, y, family = "gaussian", alpha = 1) 
> print (lasso) 
Call: glmnet (x = x, y = y, family = "gaussian", alpha = 1) 
Df %Dev Lambda 
[1,] 0 0.00000 0.878900 
[2,] 1 0.09126 0.800800 
[3,] 1 0.16700 0.729700 
[4,] 1 0.22990 0.664800 
[5,] 1 0.28220 0.605800 
[60,] 8 0.70170 0.003632 
[61,] 8 0.70170 0.003309 
[62,] 8 0.70170 0.003015 
[63,] 8 0.70170 0.002747 
[64,] 8 0.70180 0.002503 
[65,] 8 0.70180 0.002281 
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166,] 8 0.70180 0.002078 
[67,] 8 0.70180 0.001893 
[68,] 8 0.70180 0.001725 
[69,] 8 0.70180 0.001572 
请 注意 ， 模 型 构建 过 程 在 69 步 之 后 停止 了 ， 因 为 解释 偏差 不 再 随 着 4 值 的 增加 而 减 小 。 还 要 


注意 ，Df 列 现在 也 随 着 4 变化 。 初 看 上 去 ， 当 4 值 为 0.001572 时 ， 所 有 8 个 特征 都 应 该 包括 在 模型 
中 。 然 而 ， 出 于 测试 的 目的 ， 我 们 先 用 更 少 特征 的 模型 进行 测试 ， 比 如 7 特征 模型 。 从 下 面 的 结 
果 行 中 可 以 看 到 ，4 值 大 约 为 0.045 时 ， 模 型 从 7 个 特征 变 为 8 个 特征 。 因 此 ， 使 用 测试 集 评价 模型 


时 要 使 用 这 个 4 值 。 如 下 所 示 : 





































































































[31,] 7 0.67240 0.053930 
[32,] 7 0.67460 0.049140 
[33,] 7 0.67650 0.044770 
[34,] 8 0.67970 0.040790 
[35,] 8 0.68340 0.037170 
和 上 岭 回归 一 样 ， 可 以 在 图 中 画 出 结果 。 如 下 所 示 : 
> plot(lasso, xvar = "lambda", label = TRUE) 
上 述 命 令 输 出 如 下 。 
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这 张 图 很 有 趣 ， 真 正 展 示 了 LASSO 是 如 何 工 作 的 。 请 注意 标号 为 8、3 和 6 的 曲线 的 表现 ， 这 





几 条 曲线 分 别 对 应 特征 pgg45、age 和 1cp。 看 上 去 1cp 一 直接 近 于 0， 直 到 作为 最 后 一 个 特征 被 


加 入 模型 。 可 以 通过 与 岭 回归 中 同样 的 操作 看 看 7 特 
如 下 所 示 : 








> lasso.coef <- coef(lasso, s = 0.045, 
> lasso.coef 

9 x 1 sparse Matrix of class "dgCMatrix" 
(Intercept) -0.1305852115 

lcavol 0.4479676523 

lweight 0.5910362316 

age -0.0073156274 








征 模 型 的 系数 值 ， 将 4 值 放 入 coef () 函数 ， 


exact = TRUE) 
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lbph 
svi 
lcp 
gleas 
pgg45 


0.0974129976 
0.4746795823 


on 0.2968395802 
0.0009790322 























LASSO 算 法 在 14 值 为 0.045 时 ,将 lcp 的 系数 归 零 。 下 面 是 LASSO 模 型 在 测试 集 上 的 表现 : 

















> lasso.y <- predict(lasso, newx = newx, type = "response", s = 
0.045) 
> plot(lasso.y, tests$lpsa, xlab = "Predicted", ylab = "Actual", 
main = "LASSO") 
、 人 人 
上 述 命令 输出 如 下 。 
LASSO 
© 
ip 二 口 
总 .二 
百 Rs 
号 J o 0o 
< ™ 有 0 6 8 
o 0 
QQ- Le] O be 
co 6 
© 
一 二 0 [Lo] 
口 
T T T T T T 
15 2.0 之 二 3.0 3.5 40 
Predicted 











像 以 前 一 样 ， 算 出 MSE 的 值 : 


> 


lasso.resid <- lasso.y - test$lpsa 


> mean(lasso.resid^2) 


[1] 0 


.4437209 

















看 起 来 我 们 的 统计 图 和 前 面 一 样 , 只 是 MSE 值 有 了 一 点 点 改进 , 重大 改进 的 最 后 希望 只 能 名 














托 在 弹性 网 络 上 面 了 。 要 进行 弹性 网 络 建 模 ， 还 可 以 继续 使 用 glmnet 包 ， 要 做 的 调整 是 不 但 要 解 
出 1 值 ， 还 要 解 出 弹性 网 络 参数 a。 回 忆 一 下 ，a = 0 表示 岭 回归 惩罚 ，a = 1 表示 LASSO 惩 罚 ， 弹 



































性 网 络 参数 为 0<a<1。 同 时 解 出 两 个 不 同 的 参数 会 非常 麻烦 , 令 人 心 生 层 意 , 但是， 我们 可 以 
求助 于 R 中 的 老 朋友 





caret 包 。 


4.3.4 弹性 网 络 


caret 包 旨 在 解决 分 类 问题 和 训练 回归 模型 ， 它 配 有 一 个 很 棒 的 网 站 ,帮助 人 们 掌握 其 所 有 功 
能 :http://topepo.github.io/caret/index.html。 这 个 软件 包 有 很 多 功能 可 以 使 用 ， 其 中 一 些 会 在 后 面 


的 草 习 中 月 





到 。 现 在 的 目的 集中 于 找到 4 和 弹性 网 络 混合 参数 a 的 最 优 组 合 。 可 以 通过 下 面 3 个 简 


单 的 步骤 完成 。 
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(1) 使 用 R 基 础 包 中 的 expand.grid() 困 数 ， 建 立 一 个 向 量 存储 我 们 要 研究 的 c 和 4 的 所 有 
组 合 。 

(2) 使 用 caret 包 中 的 traincontrol () 函数 确定 重 取样 方法 ， 像 第 2 章 一 样 ， 使 用 LOOCYV。 

(3) 了 P 在 caret 包 的 train () 函数 中 使 用 glmnet () 训练 模型 来 选择 c 和 41。 


一 旦 选 定 参数 ， 我 们 会 像 在 岭 回 归 和 LASSO 中 做 的 那样 ， 在 测试 数据 上 使 用 它们 。 








我 们 的 组 合 网 格 应 该 足够 大 ， 以 便 能 获得 最 优 模型 ; 但 又 不 能 太 大 ,导致 计算 上 
人 不 可 行 。 对 于 本 章 这 种 规模 的 数据 集 ， 不 用 担心 会 出 现 这 样 的 问题 ， 但 一 定 要 时 
刻 牢记 。 
可 以 按照 下 面 的 规则 试验 这 两 个 超 参 数 。 


口 wx 从 0 到 1 ， 每 次 增加 0.2; 请 记 住 ，a 被 绑 定 在 0 和 1 之 间 。 
口 4 从 0 到 0.20， 每 次 增加 0.02; 0.2 的 4 值 是 岭 回 归 4 值 (4=0.1) 和 LASSO4 值 (4=0.045 ) 之 
间 的 一 个 中 间 值 。 


可 以 使 用 expand .grid() 函数 建立 这 个 向 量 并 生成 一 系列 数值 ，caret 包 会 自动 使 用 这 些 数 
caret 包 通过 下 列 代 码 生 成 a 值 和 4 值 : 


> grid <- expand.grid(.alpha = seq(0, 1, by = .2), .lambda = 
seq(0.00, 0.2, by = 0.02)) 


使 用 table () 函数 ， 可 以 看 到 a 和 和 的 全 部 66 种 组 合 : 


> table(grid) 
.lambda 








值 


O 





.alpha 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 
0 下 下 1 下 I 1 I 1 I 下 I 
.21 1 1 1 1 1 1 1 1 1 

0.4 1 1 1 1 1 1 1 1 1 1 1 
0.6 1 1 I 1 1 1 1 1 1 1 1 
0.8 1 1 1 1 1 1 1 1 1 于 1 

1 1 1 1 于 1 1 1 1 于 1 1 

















可 以 确认 这 就 是 我 们 想 要 的 结果 一 一 a 值 在 0 和 1 之 间 ，4 值 在 0O 和 0.2 之 间 。 


对 于 重 取样 方法 ， 我 们 要 在 代码 中 将 method 参 数 指定 为 Loocv。 还 有 其 他 的 重 取样 方法 可 以 
选择 ， 比 如 自助 法 和 K 折 交叉 验证 法 。traincontrol () 函数 中 有 更 多 选择 ， 我 们 会 在 后 续 章节 
进行 研究 。 














在 trainControl () 函数 中 ， 你 还 可 以 通过 selectionFunctioin() 国 数 指定 模型 选择 方 
法 。 对 于 定量 型 响应 变量 ， 使 用 算法 的 默认 选择 均 方 根 误差 即 可 完美 实现 : 


> control <- trainControl(method = "LOOCV") 
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现在 可 以 使 用 ezain () 函数 确定 最 优 的 弹性 网 络 参数 了 。 这 个 函数 和 1m () 很 相似 ， 只 需 在 
函数 语法 中 加 上 method="glmnet"，trControl=control，tuneGrid=grid。 将 结果 存储 在 
一 个 名 为 enet .train 的 对 象 中 : 


> enet.train <- train(lpsa ~ ., data = train, method = "glmnet", 
trControl = control, tuneGridqd = grid) 


调用 这 个 对 象 ， 可 以 看 到 能 够 得 出 最 小 RMSE 值 的 参数 组 合 ， 如 下 所 示 : 


> enet.train 
glmnet 
67 samples 
8 predictor 
No pre-processing 
Resampling: 
Summary of sample sizes: 66, 66, 66, 66, 66, 66, 
Resampling results across tuning parameters: 
alpha lambda RMSE Rsquared 





0.0 0.00 0.750 0.609 
0.0 0.02 0.750 0.609 
0.0 0.04 0.750 0.609 
0.0 0.06 0.750 0.609 
0.0 0.08 0.750 0.609 
0.0 0.10 0.751 0.608 
1.0 0.14 0.800 0.564 
1.0 0.16 0.809 0.558 
1.0 0.18 0.819 0.552 
1.0 0.20 0.826 0.549 























我 们 选择 最 优 模型 的 原则 是 RMSE 值 最 小 ， 模 型 最 后 选 定 的 最 优 参 数组 合 是 a = 0，4 = 0.08。 


实验 设计 得 到 的 最 优 调 优 参数 是 a=0 和 4=0.08， 相 当 于 glmnet 中 s = 0.08 的 岭 回归 。 回 忆 一 
下 ， 我 们 在 4.3.2 节 中 得 出 的 4 是 0.10。R 方 为 61%， 真 是 乏善可陈 。 


在 测试 集 上 验证 模型 的 过 程 和 前 面 一 样 : 





























> enet <- glmnet (x, y, family = "gaussian", alpha = 0, lambda = 
.08) 
> enet.coef <- coef(enet, s = .08, exact = TRUE) 


> enet .coef 
9 x 1 sparse Matrix of class "dgCMatrix" 


1 
(Intercept) 0.137811097 
lcavol 0.470960525 
lweight 0.652088157 
age -0.018257308 
lbph 0.123608113 
svi 0.648209192 
lcp -0.118214386 
gleason 0.345480799 
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pgg45 0.004478267 
> enet.y <- predict (enet, 
> plot (enet.y, tests$lpsa, 


newx=newx, type="response", 


xlab="Predicted", 


Ss= 


.08) 


Ylab="Actual", 


main="Elastic Net") 


上 述 命令 输出 如 下 。 


























Elastic Net 
oo 
ip 于 © 
| 
百 6 > 
号 中 0 
二 o ”wm 3 又 
o oo 
a 二 oo 0 ° 
§ 入 o 
Dod 
一 J oo 
L2 
T T T T T 
15 2.0 2.5 3.0 3.5 40 
Predicted 
Vs A 
和 以 前 一 样 ， 计 算 MSE: 


> enet.resid <- enet.y - test$lpsa 
> mean(enet .resid^2) 
[1] 0.4795019 














这 个 模型 的 误差 与 岭 回 归 很 接近 。 在 测试 集 上 , LASSO 模 型 在 误差 方面 表现 最 好 。 模型 可 能 
过 拟 合 了 ! 我们 的 三 特征 最 优 子 集 模型 是 最 容易 解释 的 , 但 考虑 误差 的 话 ， 却 更 应 该 接收 男 外 一 
种 技术 得 出 的 模型 。 可 以 在 glmnet 包 中 使 用 10 折 交叉 验证 来 确定 哪个 模型 更 好 。 





























4.3.5 ”使 用 glmnet 进行 交叉 验证 



































我 们 通过 caret 包 使 用 过 LOOCYV , 现在 试 试 K 折 交叉 验证 。glmnet 包 在 使 用 cv.glmnet () 估计 
4 值 时 ， 默 认 使 用 10 折 交叉 验证 。 在 K 折 交叉 验证 中 ,数据 被 划分 成 k 个 相同 的 子 集 ( 折 )， 每 次 使 
用 k 一 1 个 子 集 拟 合 模 型 , 然后 使 用 剩 下 的 那个 子 集 做 测试 集 , 最 后 将 4 次 拟 合 的 结果 综合 起 来 (一 

















般 取 平 均 数 )， 确 定 最 后 的 参数 。 











在 这 个 方法 中 ， 每 个 子 集 只 有 一 次 用 作 测 试 














Ro 





在 glmnet 包 中 使 用 K 折 交叉 验证 非常 容易 ， 





结果 包括 每 次 拟 合 的 4 值 和 响应 的 MSE。 默 认 设 置 为 gc= 1, 所 以 如 果 你 想 试 试 岭 回 归 或 弹性 网 络 ， 
必须 指定 a 值 。 因 为 我 们 想 看 看 尽 可 能 少 的 输入 特征 的 情况 ， 所 以 还 是 使 用 默认 设置 ,但 由 于 训 








练 集中 数据 量 的 原因 ， 只 分 3 折 : 


> set.seed(317) 
> lasso.cv = cv.glmnet (x, y, nfolds = 3) 
> plot(lasso.cv) 
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上 述 代码 的 输出 如 下 。 
88888888888876655442110 


Mean-Squared Error 
1.0 
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log(Lambda) 








CV 统计 图 和 glmmet 中 其 他 统计 图 有 很 大 区 别 ， 它 表示 4 的 对 数值 和 均 方 误差 之 间 的 关系 ， 还 
带 有 模型 中 特征 的 数量 。 图 中 两 条 垂直 的 虚线 表示 取得 MSE 最 小 值 的 log4( 左 侧 虚 线 ) 和 距离 最 
小 值 一 个 标准 误差 的 log4。 如 果 有 过 拟 合 问题 ， 那 么 距离 最 小 值 一 个 标准 误 的 位 置 是 非常 好 的 解 
决 问题 的 起 点 。 你 还 可 以 得 到 这 两 个 4 的 具体 值 ， 如 下 所 示 : 








> lasso.cv$lambda.min #minimum 

[1] 0.0133582 

> lasso.cv$lambda.1se #one standard error away 
[1] 0.124579 


使 用 lambda.1se 可 以 完成 下 面 的 过 程 














查看 系数 并 在 测试 集 上 进行 模型 验证 : 








> coef(lasso.cv, s = "lambda.l1lse") 

9 x 1 sparse Matrix of class "dgCMatrix" 
于 

(Intercept) -0.13543760 

lcavol 0.43892533 

lweight 0.49550944 

age . 

lbph 0.04343678 

svi 0.34985691 


op 
gleason 0.21225934 
pgg45 . 
> lasso.y.cv = predict(lasso.cv, newx=newx, type = "response", 


s = "lambda.1se") 
> lasso.cv.resid = lasso.y.cv - test$lpsa 


> mean(lasso.cv.resid^2) 
[1] 0.4465453 


这 个 模型 的 误差 为 0.45， 只 有 5 个 特征 ， 排 除了 age、1lcp 和 pgg45。 
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4.4 ”模型 选择 
通过 对 数据 集 的 分 析 和 人 研究， 我 们 得 出 5 个 不 同 模型 。 下 面 是 这 些 模 型 在 测试 集 上 的 误差 。 


口 最 优 子 集 模型 . 0.51 

口 岭 回归 模 型 ,0.48 

口 LASSO 模 型 : 0.44 

口 弹性 网 络 模型 : 0.48 

口 LASSO 交 叉 验 证 模型 : 0.45 























仅 看 误差 的 话 ，7 特 征 LASSO 模 型 表现 最 好 。 但 是 ， 这 个 最 优 模型 能 解决 我 们 试图 回答 的 问 
题 吗 ? 我 们 通过 交 义 验证 得 到 4 值 约 为 0.125 的 模型 ， 它 更 简约 ， 也 可 能 更 加 合适 。 我 更 倾向 于 选 
择 它 ， 因 为 其 解释 性 更 好 。 


说 到 这 里 ,显然 需要 来 自 肿瘤 专家 、 洲 尿 科 专 家 和 病理 学 家 的 专业 知识 ,来 帮助 我 们 搞 清 什 
么 是 最 有 意义 的 。 确 实 如 此 , 但 同时 也 需要 更 多 数据 。 在 本 例 的 样本 规模 之 下 ， 仅 改变 随机 数 种 
子 或 重新 划分 训练 集 和 测试 集 都 可 能 使 结果 发 生 大 的 改变 (你 可 以 试 试 )。 到 头 来 ， 这 些 结果 非 
但 不 能 提供 答案 , 还 可 能 引起 更 多 问题 。 但是, 这 很 糟糕 吗 ? 当然 不 是 ,除非 在 项 目 开 始 之 初 你 
就 犯 下 了 严重 的 错误 ， 对 你 能 做 的 事情 夸 下 海口 。 我 们 在 第 1 章 就 提出 了 合理 的 警告 ， 要 审慎 稳 
妥 地 推进 你 的 任务 。 
























































4.5 正则 化 与 分 类 问题 


上 面 使 用 的 正则 化 技术 同样 适用 于 分 类 问题 ,二 值 分 类 和 多 值 分 类 皆 可 。 因 此 , 结束 本 章 之 
前 , 我 们 再 介绍 一 下 可 以 用 于 逻辑 斯 带 回归 问题 的 示例 代码 。 更 具体 地 说 ,是 可 以 用 于 上 一 章 乳 
腺 癌 数 据 集 的 代码 。 在 具有 定量 型 响应 变量 的 回归 问题 中 , 正则 化 是 一 种 处 理 高 维 数据 集 的 重要 
技术 。 

















逻辑 斯 蒂 回 归 示 例 
回忆 一 下 , 在 我 们 分 析 过 的 乳腺 癌 数 据 中 , 肿瘤 是 恶性 的 概率 可 以 用 逻辑 斯 带 函 数 表示 如 下 : 




















P(malignant) =1/1+ Bt 


因为 这 个 函数 中 有 线性 的 部 分 ， 所 以 可 以 使 用 L1 和 L2 正 则 化 。 和 前 一 章 一 样 ， 先 加 载 并 准 
备 好 乳腺 癌 数 据 : 
> library (MASS) 


> biopsys$ID = NULL 
> names(biopsy) = c("thick", "u.size", "u.shape", "adhsn", 
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"s.size", "nucl", "chrom", "n.nuc", "mit", "class") 

> biopsy.v2 <- na.omit (biopsy) 

> set.seed(123) 

> ind <- sample(2, nrow(biopsy.v2), replace = TRUE, prob = c(0.7, 
0.3)) 

> train <- biopsy.v2[ind==1, ] 

> test <- biopsy.v2[ind==2, ] 


转换 数据 ， 生 成 输入 矩阵 和 标签 : 


> X <- as.matrix(train[, 1:9]) 
> YY <- train[, 10] 


在 函数 cv.glmnet 中 5 将 Eamily 的 值 设 定 为 binomial 5 将 measure 的 值 设 定 为 曲线 下 面 愉 
(auc )， 并 使 用 5$ 折 交叉 验证 : 








> set.seed(3) 

> fitcV <- cv.glmnet (x, y, family = "binomial", 
type.measure = "auc", 
nfolds = 5) 


绘制 ftCV， 可 以 看 出 AUC 和 4 的 关系 : 
> plot (fitcVv) 


绘图 命令 输出 如 下 。 
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非常 有 意思 ! 仅 加 入 一 个 特征 就 可 以 使 AUC 有 立 笔 见 影 的 提高 。 下 面 看 看 在 一 个 标准 误差 之 
处 的 模型 系数 : 


> fitcVS$Lambda.1se 

[1] 0.1876892 

> coef (fitCV, s = "lambda.1se") 

10 x 1 sparse Matrix of class "dgCMatrix" 
LL 

(Intercept) -1.84478214 

thick 0.01892397 

u.size 0.10102690 
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u.shape 0.08264828 
adhsn . 

Ss.Ssize . 

nucl 0.13891750 
chrom . 

n.nuc . 

mit . 


可 以 看 出 ， 选 择 出 的 4 个 特征 是 thickness、u.size、u.shape 和 nucl。 和 前 一 章 一 样 ， 
通过 误差 和 auc， 我们 看 看 这 个 模型 在 测试 集 上 的 表现 : 


> library (InformationVvalue) 

> predCV <- predict (fitCV, newx = as.matrix(test[, 1:9]), 
s = "lambda.1lse", 
type = "response") 

actuals <- ifelse(test$class == "malignant", 1, 0) 

misClassError(actuals, predcv) 

[1] 0.0622 

> plotROC(actuals, predCcVv) 


上 述 代 码 输 出 如 下 。 





ROC Curve 


1.00- 


口 

局 

a 
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Sensitivity (TPR) 


AUROC: 0.9953 





0.00- 


1 1 1 1 ， 
0.00 0.25 0.50 0.75 1.00 


1-Specificity (FPR) 














结果 显示 ， 这 个 模型 的 效果 与 前 面 的 逻辑 斯 带 回归 模型 基本 一 样 。 看 上 去 ，lambda.1se 还 不 
是 最 优 的 选择 。 我 们 看 看 使 用 lambda.min 选 择 的 模型 是 否 可 以 再 次 改善 样本 预测 结果 : 


> predCV.min <- predict(fitCV, newx = as.matrix(test[, 1:9]), 
s = "lambda.min", 
type = "response") 

> misClassError(actuals, predCV .min) 

[1] 0.0239 


就 是 它 了 ! 这 个 错误 率 和 第 3 章 中 的 一 样 低 。 
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4.6 小结 


本 章 的 目标 是 , 通过 一 个 小 数据 集 介 绍 如 何 对 线性 模型 应 用 高 级 特征 选择 技术 。 数据 集 的 结 
果 变 量 是 定量 的 ,但 我 们 使 用 的 glmnet 包 也 支持 定性 的 结果 变量 ( 二 值 分 类 和 多 值 分 类 )。 我 们 
介绍 了 正则 化 及 其 包含 的 3 种 技术 ， 并 应 用 这 些 技术 构建 模型 ， 然 后 进行 了 比较 。 正 则 化 是 一 项 
强大 的 技术 ， 与 其 他 建 模 技术 相 比 ， 既 可 以 提高 计算 效率 ， 还 可 以 提取 更 有 意义 的 特征 。 此 外 ， 
我 们 还 开始 使 用 caret 包 在 训练 模型 时 使 多 个 参数 达到 最 优化 。 直 到 现在 ,我 们 还 是 仅 讨论 了 线性 
模型 。 接 下 来 的 两 章 中 ， 我 们 会 开始 使 用 非 线性 模型 解决 分 类 问题 和 回归 问题 。 
























































更 多 分 类 技术 : K 最 近邻 与 
文 持 回 量 机 








“统计 思维 总 有 一 天 会 像 读 与 写 一 样 ， 成 为 一 个 有 效率 公民 的 必 备 能 力 。” 
一 一 赫 伯 特 . 乔治 ， 威 尔 斯 


我 们 在 第 3 章 讨论 了 逻辑 斯 蒂 回归 ， 它 被 用 来 预测 一 个 观测 属于 某 个 响应 变量 分 类 的 概率 一 一 
我 们 称 之 为 分 类 问题 。 逻 辑 斯 蒂 回 归 只 是 分 类 方法 的 开始 ,还 可 以 使 用 很 多 其 他 方法 改善 预测 
质量 。 

在 本 章 中 ， 我 们 将 深入 研究 两 种 非 线性 技术 : K 最 近邻 (KNN ) 与 支持 向 量 机 (SVM )。 这 
两 种 技术 要 比 我 们 之 前 讨论 的 那些 技术 复杂 一 些 ， 因 为 放弃 了 线性 假设 。 也 就 是 说 , 不 再 必须 使 
用 特征 的 线性 组 合 来 定义 决策 边界 。 先 提醒 各 位 ， 这 样 不 一 定 能 得 到 更 好 的 预测 结果 ， 而 且 向 业 
务 伙伴 解释 模型 也 会 有 一 点 问题 , 计算 效率 也 更 低 。 正 确 使 用 这 些 技术 时 ,可 以 作为 本 书 中 其 他 
技术 和 工具 的 强 有 力 的 补充 。 除 了 能 够 解决 分 类 问题 之 外 ， 它 们 还 可 以 用 于 预测 连续 型 的 结果 。 
在 本 音 ， 我 们 将 集中 讨论 分 类 问题 。 


介绍 这 两 种 技术 的 高 深 背 景 知识 之 后 , 我 们 提供 一 个 商业 案例 , 然后 应 用 这 两 种 技术 得 到 最 
优 模型 。 先 从 KNN 开 始 。 



























































5.1 上 KK 最 近邻 


在 之 前 的 工作 中 , 我 们 建立 的 模型 具有 系数 。 换 句 话说, 要 对 模型 包含 的 特征 进行 参数 估计 。 
KNN 中 没有 参数 ， 因 为 这 种 学 习 方 法 是 所 谓 的 “基于 实例 的 学 习 ”。 简 言 之 ,保存 被 标记 过 的 实 
例 (输入 和 相应 的 输出 标记 )， 什 么 都 不 做 ， 直 至 一 个 新 的 输入 模式 请 求 一 个 输出 值 。( Battiti 和 
Brunato，2014，p.11 )。 这 种 方法 通常 称 为 懒惰 学 习 ， 因 为 不 产生 具体 的 模型 参数 。 用 于 训练 的 
实例 本 身 就 是 知识 。 要 预测 任何 一 个 新 实例 (新 数据 点 ) 时 ,需要 对 训练 数据 进行 搜索 ， 找 到 一 
个 最 类 似 于 新 实例 的 实例 。KNN 处 理 分 类 问题 的 方法 是 找 最 近 的 点 ( 最 近邻 ) 来 确定 正确 的 分 
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Kk 的 作用 是 确定 算法 应 该 检查 多 少 个 近邻 ， 如 果 k=5， 算法 将 检查 5 个 最 近 的 点 。 这 种 方法 的 缺点 
是 ， 所 有 5 个 点 在 算法 中 都 被 赋予 相同 的 权重 一 一 尽管 它们 在 学 习 过 程 中 的 相关 性 不 高 。 我 们 使 
用 R 实 现 这 种 方法 ， 并 尽力 克服 这 种 不 足 。 


给 出 一 个 二 值 分 类 学 习 问 题 的 可 视 化 例子 ， 这 是 理解 K 最 近邻 方法 的 最 好 方式 。 下 图 有 两 个 
寺 征 可 以 用 来 预测 肿瘤 是 “良性 ”还 是 “恶性 ”。 图 中 的 X 表 示 我 们 要 预测 的 新 观测 。 如 果 算 法 
设 定 = 3， 那 么 圆 中 包含 的 3 个 观测 就 是 我 们 想 进行 评分 的 观测 的 最 近邻 。 因 为 其 中 占 多 数 比 例 
的 分 类 是 “恶性 ”， 所 以 X 数 据点 被 分 类 为 “恶性 ”。 如 下 图 所 示 。 
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这 个 例子 虽然 简单 ,但 也 可 以 明显 看 出 的 选择 对 于 最 近邻 至 关 重 要 。 如 果 k 太 小 ， 那么 测试 
集 上 的 观测 可 能 会 有 很 高 的 方差 一 一 尽管 偏差 很 低 。 另 一 方面 ， 当 /增加 时 ,方差 会 减 小 ,但 偏 
差 可 能 会 变 得 不 可 接受 。 必 须 进行 交叉 验证 以 确定 合适 的 K 值 。 


另 一 个 需要 指出 的 重要 问题 是 距离 的 计算 ,或 者 说 是 特征 空间 中 数据 点 的 临近 度 的 计算 。 默 
认 的 距离 是 欧 氏 距离 ， 也 就 是 从 点 A 到 点 B 的 简单 直线 距离 一 一 就 像 乌鸦 飞 过 的 直线 。 你 也 可 以 
使 用 公式 计算 ， 欧 氏 距 离 等 于 两 点 坐标 之 差 的 平方 和 的 平方 根 。 给 定 两 点 A 和 B ， 坐 标 分 别 为 pi、 
py、…、pn 和 ql1、q;、…、gqn， 欧 氏 距 离 的 公式 如 下 所 示 : 





















































欧 氏 距离 (A, B) 二 ti 一 0 


两 点 间 的 距离 强烈 依赖 于 测量 特征 时 使 用 的 单位 ， 所 以 必须 对 其 进行 标准 化 。 除 了 这 种 与 
距离 相关 的 权重 以 外 ,还 可 以 使 用 距离 计算 的 其 他 方式 。 在 接 下 来 的 例子 中 ,我 们 会 研究 这 个 
问题 。 
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5.2 支持 向 量 机 

必须 承认 , 第 一 次 听 说 支持 向 量 机 的 时 候 , 我 真 被 弄 糊 涂 了 ,认为 这 是 某 种 形式 的 学 术 恶 搞 
或 是 某 个 圈子 的 内 部 笑话 。 但 是 , 经 过 对 SVM 的 虚心 学 习 , 我 对 这 项 技术 的 态度 已 经 从 半信半疑 
变 为 推崇 备至 。 

人 们 已 经 在 很 多 情况 下 证 明 SVM 表 现 优 异 , 它 经 常 被 认为 是 最 好 的 “ 开 箱 即 用 ”的 分 类 器 之 
一 。(James，G，2013 )。 为 了 切实 理解 这 个 主题 ,我 们 再 看 一 个 简单 的 可 视 化 例子 。 下 图 中 的 
分 类 任务 是 线性 可 分 的 ,但 虚线 和 实 线 只 不 过 是 无 数 线性 可 行 解 中 的 两 个 。 

如 果 问 题 的 维度 多 于 2， 你 就 需要 分 割 超 平面 。 


















































线性 分 类 器 











太 多 的 解 对 于 泛 化 会 是 个 问题 , 因为 不 论 你 选择 哪个 解 , 线 右边 的 观测 值 都 会 被 分 到 “良性 ” 
类 中 ， 线 左边 的 观测 值 都 会 被 分 到 “恶性 ”类 。 所 以 ， 所 有 线 在 训练 数据 上 都 是 无 偏 的 , 但 是 对 
于 测试 数据 却 可 能 出 现 大 相 径 庭 的 误差 。 这 就 是 必须 要 有 支持 向 量 的 原因 。 我 们 考察 一 下 任意 一 
个 点 落 入 线性 分 类 咒 错 误 一 侧 的 概率 ,对 于 虚线 来 说 ， 这 个 概率 要 高 于 实 线 ， 这 说 明 实 线 具 有 更 
高 的 分 类 安全 边际 。 所 以 ， 正 如 Battiti 和 Brunato 所 说 ，SVM 是 具有 最 大 可 能 边际 的 线性 分 类 器 ， 
支持 向 量 就 是 最 接近 安全 边际 两 侧 的 那些 向 量 。 


下 页 图 说 明了 这 个 思想 。 细 实 线 就 是 最 优 线性 分 类 器 ， 它 建立 了 上 面 提 到 的 最 大 可 能 边际 ， 
提高 了 一 个 新 观测 落 入 分 类 器 正确 一 侧 的 概率 。 两 条 粗 黑 线 对 应 着 安全 边际 ,阴影 数据 点 构成 了 
支持 向 量 。 如 果 支 持 向 量 发 生 移 动 ， 就 会 导致 边际 和 决策 范围 发 生 改 变 。 分 类 需 之 间 的 距离 被 称 
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这 一 切 简 直 完 美 , 但 是 现实 世界 中 的 问题 并 不 是 这 么 泾 渭 分 明 的 。 





如 果 数 据 不 是 线性 可 分 的 , 很 多 观测 值 就 会 落 到 分 类 边际 错误 的 一 侧 ( 所谓 松 弛 
(人 变量 )， 这 就 是 误 分 类 。 建 立 SVM 算法 的 关键 是 ， 通 过 交叉 验证 找 出 最 优 数量 的 
支持 向 量 。 任 何 一 个 正好 位 于 最 大 分 类 边际 上 的 观测 都 可 以 被 认为 是 支持 向 量 。 
如 果 误 差 值 的 调 优 参数 过 大 ， 你 就 会 找到 很 多 支持 向 量 ， 受 到 高 偏差 低 方 差 的 困扰 。 而 如 果 
调 优 参数 过 小 ， 就 会 出 现 相反 的 情况 。 按 照 James 等 人 (他 用 C 代 表 调 优 参 数 ) 的 说 法 ， 当 C 减 小 
时 ,对 观测 处 于 边际 错误 一 侧 的 容忍 度 降低 ， 边 际 变 窄 。 这 个 C ( 更 确切 地 说 是 “成 本 函数 ”) 允 
许 观测 位 于 边际 错误 的 一 侧 。 如 果 C 被 设 为 0， 则 不 允许 任何 观测 违反 边际 。 


SVM 中 的 另 一 个 重要 问题 是 处 理 非 线性 模型 的 能 力 , 非 线性 模型 的 输入 特征 带 有 二 次 项 或 更 
高 阶 的 多 项 式 。 在 SVM 中 , 这 种 处 理 被 称 为 核 技巧 。 高 阶 特征 可 以 通过 交叉 验证 进行 估计 和 选择 ， 
此 处 要 介绍 一 种 新 的 方法 。 

对 于 任何 模型 ， 你 都 可 以 通过 不 同 阶 数 的 多 项 式 、 交 互 项 或 其 他 衍生 项 来 扩展 特征 的 数量 。 
在 大 规模 数据 集中 , 这 样 做 可 能 失控 。SVM 中 的 核 技巧 可 以 使 我 们 有 效 扩展 特征 空间 , 目的 是 使 
特征 空间 近似 于 线性 可 分 。 

怎么 做 到 这 一 点 呢 ? 先 来 看 看 SVM 最 优化 问题 及 其 约束 条 件 。 我 们 希望 达到 以 下 目标 。 
口 找 出 使 边际 最 大 的 权 值 。 
口 满足 约束 条 件 : 没有 (或 尽量 少 的 ) 数据 点 位 于 边际 之 内 。 
在 线性 回归 中 , 权重 要 与 每 个 观测 相 乘 。 但 在 SVM 中 , 权重 只 作用 于 作为 支持 向 量 的 观测 的 
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这 是 什么 意思 呢 ? 两 个 向 量 的 内 积 就 是 它们 对 应 分 量 的 乘积 之 和 。 例如, 如果 向 量 一 为 [3， 

















4, 


2]， 向 量 二 为 [1, 2, 3]， 那 么 内 积 就 是 3 x 1 + 4x2 + 2x3， 也 就 是 17。 在 SVM 中 ， 如 果 要 算出 任 
意 一 个 观测 和 所 有 其 他 观测 之 间 的 内 积 ， 那 么 算式 的 数量 就 会 有 n(n -1)/2 个 。n 是 观测 的 数量 ， 
有 10 个 观测 就 能 算出 45 个 内 积 。 但 是 , SYVM 只 关心 作为 支持 向 量 的 观测 及 其 权重 。 对 于 一 个 线性 























SVM 分 类 带 ， 其 公式 如 下 : 


f= B+ Yale,%) 





这 里 的 (@, 区 是 支持 向 量 的 内 积 ， 因 为 只 有 当 观 测 是 支持 向 量 时 ，c 才 不 为 0。 
这 就 使 分 类 算法 中 的 项 大 大 减少 ， 从 而 可 以 应 用 核 函数 一 一 通常 就 是 指 核 技 巧 。 





核 函 数 的 巧妙 之 处 在 于 , 它 将 特征 到 高 维 空间 的 转换 进行 了 数学 上 的 简化 , 不 需要 在 高 维 空 
间 中 显 式 地 创建 特征 。 这 样 做 的 好 处 是 ,在 建立 高 维 非 线性 空间 和 决策 边界 的 同时 ,还 能 保持 最 



































优 问题 的 计算 有 效 性 。 核 函数 不 用 将 特征 转换 到 高 维 空间 即 可 计算 特征 在 高 维 空间 中 的 内 积 。 


一 般 用 特征 的 内 积 ( 点 积 ) 表示 核 函数 ， 用 x; 和 x 代表 向 量 , y 和 c 为 参数 ,常用 的 核 函 数 如 下 





所 示 。 


口 线性 核 函 数 ， K(xi, wj)) =xi* ， 无 需 转换 。 

口 多 项 式 核 函数 : KG) = (00 +c)，d 为 多 项 式 的 次 数 。 
口 径 向 基 核 函数 : K(xi, %) = e(—y| Xi— xX 国有 

口 sigmod 核 函数 : KC, x)) = tanh(yxi * xj + c)o 











至 于 如 何在 非 线性 技术 中 选择 核 函 数 ， 可 能 需要 反复 实验 ， 我 们 会 简单 介绍 各 种 选择 技术 。 











5.3 商业 案例 





在 接 下 来 的 案例 研究 中 ， 我 们 在 同一 个 数据 集 上 应 用 KNN 和 SVM， 这 可 以 比较 解决 同一 问 
题 的 R 代 码 和 学 习 方法 。 我 们 从 KNN 开 始 ， 还 会 花 一 些 时 间 对 混淆 矩阵 进行 深入 研究 ， 并 对 评价 








模型 正确 率 的 各 个 统计 量 进 行 比较 。 


5.3.1 业务 理解 
我 们 要 研究 的 数据 来 自 美国 国家 糖尿 病 消 化 病 肾 病 研究 所 ， 这 个 数据 集 包括 532 个 观测 ， 
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个 输入 特征 以 及 1 个 二 值 结果 变量 ( Yes/No )。 这 项 研究 中 的 患者 来 自 美国 亚利桑那 州 中 南部 ,是 












































皮 玛 族 印第安 人 的 后 诊 。 数据 显示 ,在 过 去 的 30 年 中 , 科学 家 已 经 通过 研究 证 明 肥胖 是 引发 糖 





尿 


病 的 重要 因素 。 选 择 皮 玛 印第安 人 进行 这 项 研究 是 因为 ,半数 成 年 皮 玛 印第安 人 患 有 糖尿 病 。 而 
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这 些 患 有 糖尿 病 的 人 中 ， 有 95% 超 重 。 研 究 仅 限 于 成 年 女性 ， 病 情 则 按照 世界 卫生 组 织 的 标准 进 
行 诊断 ,为 了 型 糖尿 病 。 这 种 糖尿 病 的 患者 胰腺 功能 并 未 完全 丧失 , 还 可 以 产生 胰岛 素 , 因此 又 
































我 们 的 任务 是 研究 那些 糖尿 病 患 者 ， 并 对 这 个 人 群 中 可 能 导致 糖尿 病 的 风险 因素 进行 预测 。 
久 坐 不 动 的 生活 方式 和 高 热量 的 饮食 习惯 使 得 糖尿 病 已 经 成 为 美国 的 流行 病 。 根据 美国 糖尿 病 协 
会 的 数据 ，2010 年 , 糖尿病 成 为 美国 排名 第 七 的 致死 疾病 ， 这 个 结果 还 不 包括 那些 未 被 诊断 出 来 
的 病例 。 糖尿 病 还 会 大 大 增加 其 他 疾病 的 发 病 概率 ， 比 如 高 血压 、 血 脂 异 常 、 中 风 、 眼 疾 和 肾脏 
疾病 。 糖 尿 病 及 其 并 发 症 的 医疗 成 本 非常 巨大 , 据 估计 ,美国 2012 年 糖尿 病 治疗 总 成 本 大 约 为 4900 
亿美 元 。 要 想 知 道 这 个 问题 的 更 多 背景 知识 ， 请 参考 美国 糖尿 病 协 会 网 站 http:/diabetes.org/ 


diabetes-basics/statistics/。 












































5.3.2 ”数据 理解 和 数据 准备 
数据 集 包 含 了 532 位 女性 患者 的 信息 ， 存 储 在 两 个 数据 框 中 。 数 据 集 变量 如 下 。 


口 npreg: 怀孕 次 数 

D glu: 血糖 浓度 ， 由 口服 葡萄 糖 耐 量 测试 给 出 
D pp: 舒张 压 (单位 为 mm Hg ) 

口 skin: 三 头 肌 皮 裙 厚度 (单位 为 mm ) 

口 pmi : 身体 质量 指数 

口 ped: 糖尿 病 家 族 影响 因素 

口 age: 年 龄 

DQ type: 是 否 患 有 糖尿 病 〈 是 / 否 ) 


数据 集 包 含 在 MASS 这 个 R 包 中 ， 一 个 数据 框 是 Pima.ttr， 男 一 个 数据 框 的 是 Pima.te。 我 们 不 
将 它们 分 别 作 为 训练 集 和 测试 集 ,而 是 将 其 合 在 一 起 , 然后 建立 自己 的 训练 集 和 测试 集 , 目的 是 
学 习 如 何 使 用 R 完 成 这 样 的 任务 。 


首先 加 载 下 面 的 程序 包 ， 练 习 时 会 用 到 它们 : 

























































































> library(class) #k-nearest neighbors 
library (kknn) #weighted k-nearest neighbors 
library (e1071) #SVM 
library (caret) #select tuning parameters 
library (MASS) # contains the data 
library (reshape2) #assist in creating boxplots 
library (ggplot2) #create boxplots 
library (kernlab) #assist with SVM feature selection 


现在 加 载 数 据 集 并 检查 其 结构 ， 确 保 结构 相同 。 从 Pima.tr 开 始 ， 如 下 所 示 : 


YYYYYYY 
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> data(Pima.tr) 

> str(Pima.tr) 

'data.frame':200 obs. of 8 variables: 

$ npreg: int 5750053132 ... 

$ glu : int 86 195 77 165 107 97 83 193 142 128 ... 

$ bp : int 68 70 82 76 60 76 58 50 80 78 ... 

$ skin : int 28 33 41 43 25 27 31 16 15 37 ... 

$ bmi : num 30.2 25.1 35.8 47.9 26.4 35.6 34.3 25.9 32.4 43.3 
ped : num 0.364 0.163 0.156 0.259 0.133 ... 

$ age : int 24 55 35 26 23 52 25 24 63 31 ... 

$ type : Factor w/ 2 levels "No","Yes": 1 211121112... 
> data(Pima.te) 
> str(Pima.te) 

'data.frame':332 obs. of 8 variables: 

$ npreg: int 6113250139 ... 

$ glu : int 148 85 89 78 197 166 118 103 126 119 ... 

$ bp : int 72 66 66 50 70 72 84 30 88 80 ... 
$ skin : int 35 29 23 32 45 19 47 38 41 35 ... 
$ 
$ 


Ur 


bmi : num 33.6 26.6 28.1 31 30.5 25.8 45.8 43.3 39.3 29 ... 
ped : num 0.627 0.351 0.167 0.248 0.158 0.587 0.551 0.183 
0.704 0.263 ... 
$ age : int 50 31 21 26 53 51 31 33 27 29 ... 
$ type : Factor w/ 2 levels "No","Yes": 2112222112... 
































检查 数据 集结 构 之 后 ， 我 们 确信 可 以 把 两 个 数据 框 合成 一 个 。 这 非常 容易 ， 使 用 rbinda () 
函数 即 可 ， 它 的 功能 是 绑 定 行 并 追加 数据 。 如 果 你 的 每 个 数据 框 都 有 相同 的 观测 并 想 追 加 特征 








?9 








则 应 该 使 用 cbina () 函数 按 列 绑 定 数据 。 给 你 的 新 数据 框 命名 也 非常 简单 ， 可 以 使 有 





上 语法 new 





data=rbind(data framel, data fram2)。 代码 如 下 : 


> pima <- rbind(Pima.tr, Pima.te) 
一 如 既往 ， 再 次 检查 数据 集结 构 ， 确 认 没有 问题 。 如 下 所 示 : 


> str(pima) 
'data.frame':532 obs. of 8 variables: 
$ npreg: int 5750053132 ... 
$ glu : int 86 195 77 165 107 97 83 193 142 128 ... 
$ bp : int 68 70 82 76 60 76 58 50 80 78 ... 
$ skin : int 28 33 41 43 25 27 31 16 15 37 ... 
$ bmi : num 30.2 25.1 35.8 47.9 26.4 35.6 34.3 25.9 32.4 43.3 
$ ped : num 0.364 0.163 0.156 0.259 0.133 ... 
$ age : int 24 55 35 26 23 52 25 24 63 31 ... 
$ type : Factor WwW/ 2 levels "No","Yes": 1 211121112... 


通过 箱 线 岁 进行 探索 性 分 析 。 为 此 ， 要 使 用 结果 变量 "type "作为 ID 变量 的 值 。 和 逻辑 斯 带 
回归 一 样 ，melt () 函数 会 融合 数据 并 准备 好 用 于 生成 箱 线 图 的 数据 框 。 我 们 将 新 的 数据 框 命名 























为 pima.melt， 如 下 所 示 : 


> pima.melt <- melt (pima, id.var = "type") 
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使 用 ggplot 包 对 箱 线 图 进行 布局 是 非常 有 效 的 ,在 ggplot () 函数 中 ,我 们 要 指定 使 用 的 数据 、 
x 变量 和 y 变 量 、 统 计 图 类 型 ,还 要 说 明生 成 的 是 两 列 统计 图 。 在 下 面 的 代码 中 , 将 响应 变量 作为 
aes () 函数 中 的 x， 响 应 变量 的 值 作为 >， 然 后 使 用 geom_boxplot () 函数 生成 统计 图 。 最 后 ,使 
用 facet_wrap () 函数 将 统计 图 分 两 列 显 示 : 





> ggplot(data = pima.melt, aes(x = type, y = Value)) + 
geom boxplot() + facet wrap(~ variable, ncol = 2) 


上 述 命令 输出 如 下 。 





value 
3 
有 


一 一 一 一 一 一 一 一 一 一 一 一 一 


N 








type 


这 张 图 很 有 趣 ， 因 为 很 难 从 中 发 现任 何 明显 区 别 ， 除 了 血糖 浓度 (glu )。 正 如 你 的 猜想 ， 
如 果 患 者 的 血糖 浓度 快速 升 高 , 那么 一 般 可 以 确诊 为 糖尿 病 。 这 里 最 大 的 问题 是 , 不 同 统计 图 的 
单位 不 同 ， 但 却 共 用 一 个 Y 轴 。 对 数据 进行 标准 化 处 理 并 重新 做 图 ， 可 以 解决 这 个 问题 ， 并 生成 
更 有 意义 的 统计 图 。R 有 一 个 内 建 函 数 scale () ， 可 以 将 数据 转换 为 均值 为 90、 标准 差 为 1 的 标准 
形式 。 我 们 把 经 过 标准 化 处 理 后 的 数据 放 到 pima.scale 新 数据 框 ， 要 对 所 有 特征 进行 转换 ， 只 留 
下 响应 变量 type。 强 调 一 下 ， 进 行 KNN 时 ,使 所 有 特征 具有 同样 的 测量 标准 是 很 重要 的 。 也 就 
是 说 ， 要 对 数据 进行 标准 化 处 理 ， 使 其 均值 为 0， 标 准 差 为 1。 如 果 不 进 行 标准 化 ,那么 对 最 近邻 
的 距离 计算 就 会 出 现 错误 。 如 果 一 个 特征 的 测量 标准 是 1~100， 那 么 和 另 一 个 测量 标准 为 1~10 的 
寺 征 相 比 ， 肯 定 会 对 结果 有 更 大 的 影响 。 请 记 住 ， 如 果 你 对 一 个 数据 框 应 用 了 scale() 函数 ， 它 
就 自动 变 成 一 个 矩阵 。 使 用 as .qata.frame () 函数 ,将 其 重新 变 回 数据 框 ， 如 下 所 示 : 







































































> pima.scale <- data.frame(scale(pima[, -8])) 
> str(pima.scale) 
'data.frame':532 obs. of 7 variables: 
$ npreg: num 0.448 1.052 0.448 -1.062 -1.062 ... 
$s glu : num -1.13 2.386 -1.42 1.418 -0.453 ... 
$ bp : num -0.285 -0.122 0.852 0.365 -0.935 ... 
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现在 ,我 们 要 在 数据 框 中 加 入 响应 变量 ， 如 下 所 示 : 
> pima.scale$type <- pima$type 


使 用 melt () 和 ggplot () 重 新 生成 箱 线 图 : 





> pima.scale.melt <- melt (pima.scale, id.var 
> ggplot (data = pima.scale.melt, aes(x = type, y 
geom boxplot() + facet wrap(~ variable, 


上 述 命令 输出 如 下 。 


Skin : num -0.112 0.363 1.123 1.313 -0.397 ... 
bmi : num -0.391 -1.132 0.423 2.181 -0.943 ... 
ped : num -0.403 -0.987 -1.007 -0.708 -1.074 ... 
age : num -0.708 2.173 0.315 -0.522 -0.801 ... 


二 mm type om ) 
= value)) + 


ncol = 


2) 





npreg 


glu 








bp 


bmi 


value 








1 ' 
No Yes 





type 





对 特征 进行 标准 化 之 后 ， 箱 线 图 好 看 多 了 。 除 了 血糖 浓度 之 外 ， 可 以 看 出 其 他 特征 也 随 着 


type 发 生变 化 ， 特 别 是 age。 


将 数据 分 为 训练 
皮尔 逊 相关 性 统计 图 ， 而 生成 一 个 矩阵 : 





ttt 





> cor(pima.scale[-8]) 


npreg glu bp skin 
npreg 1.000000000 0.1253296 0.204663421 0.09508511 
glu 0.125329647 1.0000000 0.219177950 0.22659042 
bp 0.204663421 0.2191779 1.000000000 0.22607244 
Skin 0.095085114 0.2265904 0.226072440 1.00000000 
bmi 0.008576282 0.2470793 0.307356904 0.64742239 
ped 0.007435104 0.1658174 0.008047249 0.11863557 


和 测试 集 之 前 ， 先 使 用 R 中 的 cor () 函数 查看 相关 性 。 这 个 函数 不 会 生成 
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age 0.640746866 0.2789071 0.346938723 0.16133614 


bmi ped age 
npreg 0.008576282 0.007435104 0.64074687 
glu 0.247079294 0.165817411 0.27890711 
bp 0.307356904 0.008047249 0.34693872 
skin 0.647422386 0.118635569 0.16133614 
bmi 1.000000000 0.151107136 0.07343826 
ped 0.151107136 1.000000000 0.07165413 
age 0.073438257 0.071654133 1.00000000 











有 两 对 变量 之 间 具 有 相关 性 : npreg/age 和 skin/bmi。 如 果 能 够 正确 训练 模型 ， 并 能 调整 好 
超 参 数 ， 那 么 多 重 共 线性 对 于 这 些 方 法 通常 都 不 是 问题 。 


我 认为 我 们 已 经 做 好 了 建立 训练 集 和 测试 集 的 准备 ， 但 是 我 建议 一 定 要 先 检 查 响应 变量 中 
Yes 和 No 的 比例 。 确 保 数据 划分 平衡 是 非常 重要 的 ， 如 果菜 个 结果 过 于 稀疏 ， 就 会 导致 问题 ， 可 
能 引起 分 类 融 在 优势 类 和 劣势 类 之 间 发 生 偏离 。 对 于 不 平衡 的 判定 没有 一 个 固定 的 规则 。 一 个 比 
较 好 的 经 验 法 则 是 ， 结 果 中 的 比例 至 少 应 该 达到 2 : 1 ( He 与 Wa，2013 )。 

> table(pima.scales$type) 


No Yes 
355 177 


比例 为 2 : 1， 现 在 可 以 建立 训练 集 和 测试 集 了 。 使 用 我 们 常用 的 语法 ， 划 分 比例 为 70/30， 
如 下 所 示 : 


> set.seed(502) 
> ind <- sample(2, nrow(pima.scale), replace = TRUE, prob = c(0.7, 



























































0.3)) 
> train <- pima.scale[ind == 1, ] 
> test <- pima.scale[ind == 2，] 
> str(train) 


data.frame':385 obs. of 8 variables: 

$ npreg: num 0.448 0.448 -0.156 -0.76 -0.156 ... 

$s glu : num -1.42 -0.775 -1.227 2.322 0.676 ... 

$ bp : num 0.852 0.365 -1.097 -1.747 0.69 

$ Skin : num 1.123 -0.207 0.173 -1.253 -1.348 ... 

$ bmi : num 0.4229 0.3938 0.2049 -1.0159 -0.0712 

$ ped : num -1.007 -0.363 -0.485 0.441 -0.879 

$ age : num 0.315 1.894 -0.615 -0.708 2.916 ... 

$ type : Factor w/ 2 levels "No","Yes": 1 211122111... 
> str(test) 

'data.frame':147 obs. of 8 variables: 

$ npreg: num 0.448 1.052 -1.062 -1.062 -0.458 ... 

glu : num -1.13 2.386 1.418 -0.453 0.225 ... 

bp : num -0.285 -0.122 0.365 -0.935 0.528 ... 

Skin : num -0.112 0.363 1.313 -0.397 0.743 

bmi : num -0.391 -1.132 2.181 -0.943 1.513 

ped : num -0.403 -0.987 -0.708 -1.074 2.093 

age : num -0.7076 2.173 -0.5217 -0.8005 -0.0571 ... 

type : Factor w/ 2 levels "No","Yes": 1 211212111... 


一 切 就 绕 ， 下 一 步 就 是 建立 预测 模型 并 进行 评价 。 我 们 从 KNN 开 始 。 


ww 
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5.3.3 ”模型 构建 与 模型 评价 
下 面 讨论 与 模型 构建 和 模型 评价 相关 的 各 个 主题 。 
1. KNN 建 模 


我 们 在 前 面 提 到 过 ， 使 用 KNN 建 模 关 键 的 一 点 就 是 选择 最 合适 的 参数 ( k 或 K )。 在 确定 / 值 
方面 ，caret 包 又 可 以 大 展 身 手 了 。 先 建立 一 个 供 :实验 用 的 输入 网 格 ， k 值 从 2 到 20， 每 次 增加 1。 
使 用 sxpand.gtrid() 和 seG() 函数 可 以 轻松 实现 。 在 caret 包 中 ， 作 用 于 KNN 函 数 的 参数 非常 简 
单 直接 ， 就 是 .K: 


> gridl <- expand.grid(.k = seq(2, 20, by = 1)) 


选择 参数 时 ， 还 是 使 用 交叉 验证 。 先 建立 一 个 名 为 control 的 对 象 ， 然 后 使 用 caret 包 中 的 
traincontrol () 国 数 ， 如 下 所 示 : 























> control <- trainControl(method = "cv") 


现在 ， 使 用 crain () 函数 建立 计算 最 优 K 值 的 对 象 ，train() 函数 也 在 caret 包 中 。 别 忘 了 在 
进行 任何 随机 抽样 之 前 ， 都 要 先 设 定 随机 数 种 子 : 


> set.seed(502) 


使 用 train () 函数 建立 对 象 时 ， 需 要 指定 模型 公式 、 训 练 数据 集 名 称 和 一 个 合适 的 方法 。 模 
型 公式 和 以 前 一 样 一 一 y ~ x， 方 法 就 是 kxnn。 这 些 参数 设 定之 后 ，R 代 码 就 可 以 建立 对 象 并 计算 
最 优 k 值 了 ， 如 下 所 示 : 




















> knn.train <- train(type ~ ., data = train, 
method = "knn", 
trControl = control, 
tuneGrid = grid1) 


调用 这 个 对 象 即 可 得 到 我 们 追寻 的 最 优 £ 值 ， 是 17: 





> knn.train 

k-Nearest Neighbors 
385 samples 

7 predictor 

2 classes: 'No', 'Yes' 
No pre-processing 
Resampling: Cross-Validated (10 fold) 
Summary of sample sizes: 347, 347, 345, 347, 347, 346, ... 
Resampling results across tuning parameters: 

k Accuracy Kappa Accuracy SD Kappa SD 
0.736 0.359 0.0506 0.1273 
0.762 0.416 0.0526 0.1313 
0.761 0.418 0.0521 0.1276 
0.759 0.411 0.0566 0.1295 
0.772 0.442 0.0559 0.1474 


OU 已 wNb 
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7 0.767 0.417 0.0455 0.1227 

8 0.767 0.425 0.0436 0.1122 

9 0.772 0.435 0.0496 0.1316 
10 0.780 0.458 0.0485 0.1170 
11 0.777 0.446 0.0437 0.1120 
12 0.775 0.440 0.0547 0.1443 
13 0.782 0.456 0.0397 0.1084 
14 0.780 0.449 0.0557 0.1349 
15 0.772 0.427 0.0449 0.1061 
16 0.782 0.453 0.0403 0.0954 
17 0.795 0.485 0.0382 0.0978 
18 0.782 0.451 0.0461 0.1205 
19 0.785 0.455 0.0452 0.1197 
20 0.782 0.446 0.0451 0.1124 

Accuracy was used to select the optimal model using the largest 
value. 


The final value used for the model was k = 17. 


除了 得 到 k = 17 这 个 结果 之 外 ， 我 们 在 输出 的 表格 中 还 可 以 看 到 正确 率 和 Kappa 统 计量 的 信 
息 ， 以 及 交叉 验证 过 程 中 产生 的 标准 差 。 正 确 率 告诉 我 们 模型 正确 分 类 的 百分比 。Kappa 又 称 科 
恩 的 K 统 计量 ， 通 常用 于 测量 两 个 分 类 带 对 观测 值 分 类 的 一 致 性 。Kappa 可 以 使 我 们 对 分 类 问题 
的 理解 更 加 深入 , 它 对 正确 率 进行 了 修正 , 去 除了 仪 靠 偶然 性 ( 或 随机 性 ) 获得 正确 分 类 的 因素 。 
计算 这 个 统计 量 的 公式 是 Kappa = (一 致 性 百分比 -期 望 一 致 性 百分比 y(1 -期 望 一 致 性 百分比 )。 


一 致 性 百分比 是 分 类 带 的 分 类 结果 与 实际 分 类 相符 合 的 程度 ( 就 是 正确 率 )， 期 望 一 致 性 百 
分 比 是 分 类 器 靠 随机 选择 获得 的 与 实际 分 类 相符 合 的 程度 。Kappa 统 计量 的 值 越 大 ， 分 类 器 的 分 
类 效果 越 好 ,Kappa 为 1 时 达到 一 致 性 的 最 大 值 。 下 面 将 模型 应 用 到 测试 数据 集 上 , 通过 一 个 完整 
的 例子 说 明 如 何 计 算 正 确 率 和 Kappa。 


使 用 class 包 中 的 knn () 函数 实现 。 要 使 用 这 个 函数 ， 至 少 需要 指定 4 个 参数 : 训练 数据 、 测 
试 数据 、 训 练 集 中 的 正确 标记 、K 值 。 生 成 一 个 名 为 xnn .test 的 对 象 ， 看 看 效果 如 何 : 


> knn.test <- knn(train[，-8]，test[，-8]，train[，8]，k = 17) 
对 象 生 成 之 后 ， 检 查 混 消 和 矩阵， 算出 正确 率 和 Kappa: 


> table(knn.test, tests$type) 
knn.test No Yes 

No 77 26 

Yes 16 28 


正确 率 的 计算 非常 简单 ， 用 分 类 正确 的 观测 数 除 以 观测 总 数 即 可 : 


> (77 + 28) / 147 
[1] 0.7142857 


正确 率 为 711%， 这 比 我 们 在 训练 数据 上 得 到 的 正确 率 ( 约 80% ) 稍 低 一 些 。 下 面 看 看 如 何 使 
用 代码 计算 Kappa 统 计量 : 
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> #calculate Kappa 
> prob.agree <- (77 + 28) / 147 #accuracy 
> prob.chance <- ((77 + 26) / 147) * ((77 + 16) / 147) 
> prob.chance 
[1] 0.4432875 
> kappa <- (prob.agree - prob.chance) / (1 - prob.chance) 
> kappa 
[1] 0.486783 


Kappa 统 计量 的 值 为 0.49， 和 我 们 在 训练 数据 集中 得 到 的 一 样 。Altman ( 1991 ) 给 出 了 一 种 
启发 式 的 方法 ， 帮 助 我 们 解释 这 个 统计 量 ， 如 下 表 所 示 。 























k 值 一 致 性 强度 
< 0.20 很 差 
0.21 ~ 0.40 一 般 
0.41 ~ 0.60 中 等 
0.61 ~ 0.80 好 
0.81 ~ 1.00 很 好 
我 们 的 Kappa 只 是 中 等 ， 在 测试 集 上 的 正确 率 仅 比 70% 高 一 点 ， 所 以 应 该 看 看 是 否 可 以 使 用 





加 权 最 近邻 法 得 到 更 好 的 结果 。 加 权 最 近邻 法 提高 了 离 观 测 更 近 的 邻居 的 影响 力 , 降低 了 远离 观 
测 的 邻居 的 影响 力 。 观 测 离 空间 点 越 远 ， 对 它 的 影响 力 的 惩罚 就 越 大 。 要 使 用 加 权 最 近邻 法 ， 需 
要 kknn 包 中 的 train.kknn () 函数 来 选择 最 优 的 加 权 方 式 。 


train.kknn() 函数 使 用 我 们 前 面 介绍 过 的 LOOCV 选 择 最 优 参数 ， 比 如 最 优 的 区 最 近邻 数 
量 、 二 选 一 的 距离 测量 方式 ， 以 及 核 函 数 。 














在 前 面 的 讨论 中 , 不 加 权 的 K 最 近邻 算法 使 用 的 是 欧式 距离 。 在 kknn 包 中 , 除了 欧式 距离 ， 
还 可 以 选择 两 点 坐标 差 的 绝对 值 之 和 。 如 果 要 使 用 这 种 距离 计算 方式 , 需要 指定 闵可夫 斯 基 距 


有 多 种 方法 可 以 对 距离 进行 加 权 。 我 们 要 使 用 的 kknn 包 中 有 10 种 不 同 的 加 权 方 式 , 不 加 权 也 
是 其 中 之 一 。 它们 是 : retangular ( 不 加 权 )、triangular、epanechnikov、biweight、 triweight 、consine、 
inversion 、gaussian 、rank 和 optimal。 对 这 些 加权 技 术 的 全 面 介绍 请 参考 HechenbichlerK. 与 Schliep 
K.P. ( 2004 )。 


























为 简单 起 见 ， 我 们 集中 讨论 其 中 两 种 : triangular 和 epanechnikov。 赋 予 权重 之 前 ， 算 法 对 所 
有 距离 进行 标准 化 处 理 ， 使 它们 的 值 都 在 0O 和 1 之 间 。triangular 加 权 方 法 先 算出 1 减 去 距离 的 差 ， 
再 用 差 作 为 权重 去 乘 这 个 距离 。epanechnikov 加 权 方 法 是 用 3/4 乘 以 (1 -距离 的 平方 )。 为 了 方便 比 
较 ， 我 们 把 这 两 种 加 权 方 法 和 标准 的 不 加 权 方 法 放 在 一 起 实现 。 


先 指定 随机 数 种 子 ， 然 后 使 用 kknn ( ) 函数 建立 训练 集 对 象 ， 这 个 函数 要 求 指定 的 参数 有 : 大 
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值 的 最 大 值 xmax、 上 距离 aistance (1 表示 绝对 值 距 离 ，2 表 示 欧 氏 距 离 )、 核 函数 。 在 我 们 的 模 
型 中 ，kmax 设 定 为 25，distance 为 2: 
> set.seed(123) 
> kknn.train <- train.kknn(type ~ ., data = train, kmax = 25, 


distance = 2, 
kernel = c("rectangular", "triangular", "epanechnikov")) 


kknn 的 一 个 特别 好 处 是 ， 可 以 用 统计 图 的 方式 比较 结果 ， 如 下 所 示 : 


> plot (kknn.train) 
































六 会 从 给 中 
上 述 命令 输出 如 下 。 
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中 X 轴 表示 的 是 £ 值 ，Y 轴 表示 的 是 核 函 数 误 分 类 观测 百分比 。 令 人 惊讶 的 是 ,不 加 权 分 类 
方式 ( rectangular ) 在 上 = 19 的 时 候 表现 最 好 。 可 以 调用 对 象 看 看 分 类 误差 和 最 优 参数 , 如 下 所 示 : 


> kknn.train 
Call: 
train.kknn(formula = type ~ ., data = train, kmax = 25, distance = 
2, kernel 
= c("rectangular", "triangular", "epanechnikov")) 
Type of response variable: nominal 
Minimal misclassification: 0.212987 
Best kernel: rectangular 
Best k: 19 


从 上 面 的 数据 可 以 看 出 , 给 距离 加 权 不 能 提高 模型 在 训练 集 上 的 正确 率 。 而 且 从 下 面 的 代码 
可 以 看 出 ， 它 同样 不 能 提高 测试 集 上 的 正确 率 : 




















> kknn.pred <- predict (kknn.train, newdata = test) 
> table(kknn.pred, tests$type) 
kknn.pred No Yes 

No 76 27 

Yes 17 27 
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我 们 还 可 以 实验 其 他 加 权 方 法 , 但 其 他 方法 的 结果 并 不 比 这 些 更 好 。 我 们 对 KNN 的 讨论 到 此 
为 止 。 在 你 自己 的 案例 中 ， 应 该 多 多 尝试 各 种 参数 ， 看 看 它们 的 效果 。 


2. SVM 建 模 


使 用 e1071 包 构建 SVM 模 型 ， 先 从 线性 支持 向 量 分 类 器 开始 ， 然 后 转 入 非 线 性 模型 。e1071 
包 中 有 一 个 非常 好 的 用 于 SVM 的 函数 一 一 tune.svm() ， 它 可 以 帮助 我 们 选择 调 优 参数 及 核 函 
数 。tune .svm() 使 用 交叉 验证 使 调 优 参数 达到 最 优 , 我 们 先 建立 一 个 名 为 ] inear .tune 的 对 象 ， 
然后 使 用 summary () 函数 看 看 其 中 的 内 容 。 如 下 所 示 : 























> linear.tune <- tune.svm(type ~ ., data = train, 
kernel = "linear", 
cost = c(0.001, 0.01, 0.1, 1, 5, 10)) 
> summary (linear.tune) 
Parameter tuning of 'svm': 
- sampling method: 10-fold cross validation 
- best parameters: 
cost 
1 
- best performance: 0.2051957 
- Detailed performance results: 


cost error dispersion 
1 le-03 0.3197031 0.06367203 
2 le-02 0.2080297 0.07964313 
3 le-01 0.2077598 0.07084088 
4 le+00 0.2051957 0.06933229 
5 5e+00 0.2078273 0.07221619 
6 le+01 0.2078273 0.07221619 








对 于 这 些 数据 ， 最 优 成 本 函数 cost 是 1， 这 时 的 误 分 类 误差 率 差不多 为 21%。 我 们 在 测试 集 
上 进行 预测 和 检验 ， 使 用 predict () 函数 ， 指 定 newdata=test: 
> best.linear <- linear.tunes$best.model 
> tune.test <- predict (best.linear, newdata = test) 
> table(tune.test, tests$type) 
tune.test No Yes 
No 82 22 
Yes 13 30 
> (82 + 30)/147 
[1] 0.7619048 
线性 支持 向 量 分 类 器 在 训练 集 和 测试 集 上 表现 得 都 比 KNN 稍 好 一 些 。el1071 包 中 有 一 个 用 于 
SVM 的 非常 好 的 函数 一 一 tune.svm()， 它 可 以 帮助 我 们 选择 调 优 参数 或 核 函 数 。 现 在 看 看 非 线 
性 模型 能 否 表 现 得 更 好 ， 依 然 使 用 交叉 验证 选择 调 优 和 参数 。 


我 们 要 试验 的 第 一 个 核 函 数 是 多 项 式 核 函 数 ,需要 调整 优化 两 个 参数 : 多 项 式 的 阶 ( degree ) 
与 核 系 数 ( coef0 )。 设 定 多 项 式 的 阶 是 3 、4 和 5， 核 系数 从 0.1 逐 渐 增 加 到 4， 如 下 所 示 : 









































5.3 ”商业 案例 97 





> set.seed(123) 
> poly.tune <- tune.svm(type ~ ., data = train, 
kernel = "polynomial", 
degree = c(3, 4, 5), 
coef0 = c(0.1, 0.5, 1, 2, 3, 4)) 
> summary (poly .tune) 
Parameter tuning of 'svm': 
- sampling method: 10-fold cross validation 
- best parameters: 
degree coef0 
3 0.1 
- best performance: 0.2310391 


模型 选择 的 多 项 式 阶 数 为 3， 核 系数 为 0.1。 和 线性 SVM 一 样 ， 可 以 用 这 些 参数 在 测试 集 上 进 
行 预 测 ， 如 下 所 示 : 


> best.poly <- poly.tune$best.model 5 
= test) 


> poly.test <- predict(best.poly, newdata = 
> table(poly.test, tests$type) 
poly.test No Yes 
No 81 28 
Yes 12 26 
> (81 + 26) / 147 
[1] 0.7278912 


这 个 模型 的 表现 还 不 如 线性 模型 。 下 面 测试 径 向 基 核 函数 ， 此 处 只 需 找 出 一 个 参数 gamma， 
在 0.1 ~ 4 中 依次 检验 。 如 果 gamma 过 小 ， 模 型 就 不 能 解释 决策 边界 的 复杂 性 ; 如 果 gamma 过 大 ， 
模型 就 会 严重 过 拟 合 。 


> set.seed(123) 
> rbf.tune <- tune.svm(type ~ ., data = train, 
kernel = "radial", 
gamma = c(0.1, 0.5, 1, 2, 3, 4)) 
> summary (rbf .tune) 
Parameter tuning of 'svm': 
- sampling method: 10-fold cross validation 
- best parameters: 
gamma 
0.5 
- best performance: 0.2284076 


最 优 的 gamma 值 是 0.5， 这 种 模型 的 表现 看 上 去 也 不 比 其 他 SVM 模 型 好 多 少 。 我 们 还 是 要 在 
测试 集 上 进行 验证 ， 和 前 面 一 样 : 


> best.rbf <- rbf.tune$best.model 
> rbf.test <- predict(best.rbf, newdata = test) 
> table(rbf.test, tests$type) 
rbf.test No Yes 
+ i 
Yes 20 21 
> (73+21)/147 
[1] 0.6394558 























TT 
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表现 可 谓 惨不忍睹。 提高 性 能 的 最 后 一 招 只 能 是 kernel="sigmoia" 了。 需要 找 出 两 个 参 


并 








数 gamma 和 核 系数 ( coef0 ): 
> set.seed(123) 
> sigmoid.tune <- tune.svm(type ~ ., data = train, 
kernel = "sigmoid", 
gamma G(001y 0.57 1, 2, 3r MA)s 


coef0 c(0.1, 0.5, 1, 2, 3, 4)) 

> summary (sigmoid.tune) 
Parameter tuning of 'svm': 
- sampling method: 10-fold cross validation 
- best parameters: 
gamma coef0 

0.1 2 
- best performance: 0.2080972 


误差 率 和 线性 模型 基本 一 样 。 现 在 只 要 看 看 能 否 在 测试 集 上 表现 得 更 好 : 


> best.sigmoid <- sigmoid.tunes$sbest .model 
> sigmoid.test <- predict(best.sigmoid, newdata = test) 
> table(sigmoid.test, tests$type) 
sigmoid.test No Yes 
No 82 19 
Yes 11 35 
> (82+35)/147 
[1] 0.7959184 


看 看 吧 ! 我 们 终于 找到 了 一 个 在 测试 集 上 和 训练 集 上 有 相同 表现 的 模型 了 。 看 起 来 ， 可 以 选 
择 sigmoid 核 隐 数 作为 最 优 预 测 。 


迄今 为 止 ,我 们 一 直 在 折腾 各 种 不 同类 型 的 模型 。 下 面 要 对 这 些 模型 ( 包括 线性 模型 ) 的 性 
能 进行 评价 ， 不 只 看 正确 率 ， 而 要 使 用 各 种 指标 。 






































5.3.4 “模型 选择 


我 们 已 经 研究 了 两 种 不 同类 型 的 建 模 技术 ， 从 各 方面 来 看 ，KNN 都 处 于 下 风 。KNN 在 测试 
集 上 最 好 的 正确 率 只 有 71% 左 右 ， 相 反 , 通过 SVM 可 以 获得 接近 80% 的 正确 率 。 在 简单 选择 具有 
最 优 正确 率 的 模型 ( 本 案例 中 是 使 用 sigmoid 核 函数 的 SVM 模 型 ) 之 前 ， 先 看 看 如 何 通 过 对 混淆 
和 矩阵 的 深入 研究 来 比较 各 种 模型 。 


为 了 完成 这 个 任务 ， 还 是 要 求助 于 我 们 的 老 朋友 caret 包 ， 使 用 其 中 的 confusionMatrix() 
函数 。 请 注意 ,在 前 面 的 内 容 中 , 我们 使 用 过 InformationValue 包 中 的 同名 函数 。 但 caret 包 中 的 这 
个 函数 会 生成 我 们 评价 和 选择 最 优 模型 所 需 的 所 有 统计 量 。 先 从 建立 的 最 后 一 个 模型 开始 , 使 用 
的 语法 和 基础 的 table () 函数 一 样 ， 不 同 之 处 是 要 指定 positive 类 ， 如 下 所 示 : 
































> confusionMatrix(sigmoid.test, tests$type, positive = "Yes") 
Confusion Matrix and Statistics 
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Reference 
Prediction No Yes 
No 82 19 
Yes 11 35 
Accuracy : 0.7959 
95% CI : (0.7217, 0.8579) 


No Information Rate : 0.6327 
P-Value [Acc > NIR] : 1.393e-05 

Kappa : 0.5469 

Mcnemar's Test P-Value : 0.2012 

Sensitivity : 0.6481 

Specificity : 0.8817 

Pos Pred Value : 0.7609 

Neg Pred Value : 0.8119 

Prevalence : 0.3673 

Detection Rate : 0.2381 

Detection Prevalence : 0.3129 

Balanced Accuracy : 0.7649 
Positive' Class : Yes 


函数 生成 的 一 些 项 目 我 们 已 经 介绍 过 了 ， 比 如 正确 率 和 Kappa， 其 他 统计 量 介绍 如 下 。 


口 No Information Rate: 最 大 分 类 所 占 的 比例 一 一 63% 的 人 没有 糖尿 病 。 
口 P-value: 用 来 进行 假设 检验 ， 说明 正确 率 确实 高 于 No Information Rate。 














口 Mcnemar's Test: 我 们 现在 不 关心 这 个 统计 量 ， 它 用 于 配对 分 析 ， 主 要 用 于 流行 病 学 
的 研究 。 

口 sensitivity: 敏感 度 ， 真 阳性 率 ; 在 本 案例 中 ， 表 示 没 有 糖尿 病 并 且 被 正确 识别 的 
比例 。 





口 specificity: 特异 度 , 真 阴性 率 ; 在 本 案例 中 ,表示 有 糖尿 病 并 且 被 正确 识别 的 比例 。 
口 Pos Preqd Value: 阳性 预测 率 ， 被 认为 有 糖尿 病 的 人 中 真 的 有 糖尿 病 的 概率 。 使 用 下 
面 的 公式 计算 。 

















敏感 度 * 患 病 率 
(敏感 度 * 患 病 率 )+(1 一 敏感 度 )*(1 一 患 病 率 ) 
口 Neg Pred Value: 阴 ' 性 预测 率 ， 被 认为 没有 糖尿 病 的 人 中 真 的 没有 糖尿 病 的 概率 。 使 
用 下 面 的 公式 计算 。 





PPYV = 





感度 *(1 一 患 病 率 ) 
((1— 病 率 )) +( 敏 感度)*(1 一 患 病 率 ) 


D Prevalence: 患 病 率 , 某 种 疾病 在 人 群 中 流行 度 的 估计 值 ， 本 例 中 的 计算 方法 是 第 二 列 
( Yes 列 ) 中 的 数 之 和 除 以 总 观测 数 ( 和 矩阵 中 所 有 数 之 和 )。 

口 Detection Rate: 真 阳 性 预测 中 被 正确 识别 的 比例 ， 在 本 案例 中 ， 用 35 除 以 总 观测 数 。 
口 Detection Prevalence: 预测 的 患 病 率 ， 在 本 案例 中 ， 底 行 中 的 数 的 和 除 以 总 观测 数 。 


NPV= 
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口 Balanced Accuracy: 所 有 类 别 正确 率 的 平均 数 。 用 来 表示 由 于 分 类 融 算 法 中 潜在 的 偏 
差 造 成 的 对 最 频繁 类 的 过 度 预 测 。 可 以 简单 地 用 (敏感 度 + 特异 度 )/2 来 计算 。 


我 们 的 模型 敏感 度 不 像 希 望 的 那么 高 , 这 说 明 从 数据 集中 丢失 了 一 些 特征 ,这 些 特征 可 以 提 
高 找 出 真正 糖尿 病 患者 的 可 能 性 。 我 们 用 这 些 结果 和 线性 SVM 进行 对 比 ， 如 下 所 示 : 





> ConfusionMatrix(tune.test，testS$Stype，Ppositive = "Yes") 
Reference 
Prediction No Yes 
No 82 24 
Yes 11 30 
Accuracy : 0.7619 
95% CI : (0.6847, 0.8282) 
No Information Rate : 0.6327 
P-Value [Acc > NIR] : 0.0005615 
Kappa : 0.4605 
Mcnemar's Test P-Value : 0.0425225 
Sensitivity : 0.5556 
Specificity : 0.8817 
Pos Pred Value : 0.7317 
Neg Pred Value : 0.7736 
Prevalence : 0.3673 
Detection Rate : 0.2041 
Detection Prevalence : 0.2789 
Balanced Accuracy : 0.7186 
'Positive' Class : Yes 


从 两 个 模型 的 对 比 可 以 看 出 ， 线 性 SMV 模 型 在 各 方面 都 处 于 下 风 ，sigmoid 核 函数 模型 明显 
更 胜 一 筹 ,但 此 处 忽略 了 一 件 事 , 即 没 有 进行 任何 特征 选择 。 我 们 做 的 工作 就 是 把 特征 堆 在 一 起 ， 


作为 所 谓 的 输入 空间 ， 然 后 让 SVM 这 个 黑 









































盒 去 计算 ， 最 后 给 出 一 个 预测 分 类 。 使 用 SVM 的 一 个 





主要 问题 就 是 , 它 给 出 的 结果 非常 难以 解释 。 有 一 些 方 法 可 以 改进 这 个 问题 , 但 我 认为 超出 了 本 
章 范围 。 完 全 掌握 了 前 面 讲述 的 基础 知识 之 后 ， 这 些 事情 应 该 由 你 独立 探索 和 研究 。 











5.4 SVM 中 的 特征 选择 


但 是 , 还 有 一 些 其 他 办 法 可 以 进行 特征 选择 , 我 要 花 一 些 篇 幅 来 告诉 你 们 开始 这 项 工作 的 捷 
径 , 你 需要 做 的 就 是 反复 实验 。 我 们 要 再 次 用 到 caret 包 ,因为 它 可 以 基于 kernlab 包 在 线性 SVM 中 




















进行 交叉 验证 。 











要 完成 上 面 的 任务 , 需要 设 定 随机 数 种 子 ， 在 caret 包 中 的 rfecontrol () 函数 中 指定 交叉 验 





证 方法 ,使 用 rfe () 函数 执行 一 个 递归 
在 rfecontrol () 中 , 你 需要 根据 使 月 





























的 特征 选择 过 程 ， 最 后 检验 模型 在 测试 集 上 的 运行 情况 。 








的 模型 指定 functions 人 参数 。 可 以 使 用 几 种 不 同 的 functions 
参数 E 此 处 使 用 lrFuncs。 如 果 想 看 可 用 的 functions 参数 列表 3 最 好 使 用 ?rfeControl 
和 ?caretFuncs 命 令 查 看 相关 文档 。 本 例 代码 如 下 : 
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> set.seed(123) 
> rfeCNTL <- rfeControl(functions = lrFuncs, method = "cv", number 
= 10) 
> svm.features <- rfe(train[, 1:7], train[, 8], 
sizes = c(7, 6, 5, 4), 
rfeControl = rfeCNTL, 
method = "svmLinear") 


要 建立 svm. features 对 象 ， 重 点 是 要 指定 输入 数据 和 响应 因子 、 通 过 参数 sizes 指 定 输入 
特征 的 数量 以 及 kernlab 包 中 的 线性 方法 ( 此 处 是 svmLinear )。method 还 有 其 他 一 些 选 项 ， 比 如 
svmPoly， 但 是 没有 对 应 于 sigmoid 核 函数 的 选项 。 调 用 这 个 对 象 即 可 查看 具有 不 同 数量 特征 的 
模型 的 表现 ， 如 下 所 示 : 




















> svm.features 

Recursive feature selection 

Outer resampling method: Cross-Validated (10 fold) 

Resampling performance over subset size: 

Variables Accuracy Kappa AccuracySD KappaSD Selected 
4 0.7797 0.4700 0.04969 0.1203 

0.7875 0.4865 0.04267 0.1096 本 

0.7847 0.4820 0.04760 0.1141 

0.7822 0.4768 0.05065 0.1232 

The top 5 variables (out of 5): 


出 乎 意料 ， 五 特征 模型 表现 得 相当 好 ， 和 包括 skin 和 bp 的 全 特征 模型 不 相 上 下 。 我 们 在 测 
试 集 上 进行 实验 ， 别 忘 了 ， 全 特征 模型 的 正确 率 是 76.2%: 





NO wm 











> svm.5 <- svm(type ~ glu + ped + npreg + bmi + age 
data = train, 
kernel = "linear") 
> svm.5.predict <- predict(svm.5, newdata = test[c(1, 2, 5, 6, 7)]) 
> table(svm.5.predict, tests$type) 
Svm.5.predict No Yes 
No 79 21 
Yes 14 33 


表现 不 怎么 样 , 我们 还 是 要 回 到 全 特征 模型 。 通 过 反复 实验 , 你 可 以 看 到 这 种 方法 是 如 何 工 
作 的 , 它 的 目的 是 对 特征 重要 性 做 一 个 简单 的 鉴别 。 如 果 你 想 研 究 其 他 可 以 用 于 特征 选择 的 技术 
和 方法 〈 特 别 是 那些 用 于 黑 盒 技术 的 )， 我 推荐 你 先 了 解 Guyon 和 Elisseeff ( 2003 ) 在 这 个 领域 的 
工作 。 















































5.5 小结 


我 们 在 本 章 讨论 了 两 种 新 的 分 类 技术 : KNN 和 SVM， 并 在 一 个 小 规模 数据 集 上 分 别 使 用 这 
两 种 技术 建立 了 模型 ， 以 预测 某 个 人 是 否 患 有 糖尿 病 ， 还 对 模型 进行 了 比较 。 我 们 的 目的 是 说 明 
KNN 和 SVM 的 工作 原理 及 其 区 别 。 在 KNN 部 分 ， 我 们 介绍 了 不 加 权 和 加 权 的 最 近邻 算法 。 在 预 
测 菜 个 人 是 否 串 有 糖尿 病 方面 ， 这 些 方 法 的 表现 都 不 如 SVM 。 


























102 第 5 章 更 多 分 类 技术 : KK 最 近邻 与 支持 向 量 机 











我 们 研究 了 如 何 使 用 e1701 包 建立 线性 的 和 非 线性 的 支持 向 量 机 ， 并 对 其 进行 调 优 。 使 用 功 
能 极其 强大 而 又 全 面 的 caret 包 比较 线性 和 非 线 性 支持 向 量 机 的 预测 能 力 , 然后 发 现 , 使 用 sigmoid 
核 函 数 的 非 线 性 支持 癌 量 机 具有 最 好 的 性 能 。 

最 后 , 我 们 简单 介绍 了 如 何 使 用 caret 包 进行 粗略 的 特征 选择 。 因 为 对 于 那些 像 SVM 一 样 使 用 
黑 盒 技术 的 方法 来 说 , 特征 选择 确实 是 个 艰巨 的 挑战 。 这 也 是 使 用 这 些 技术 时 可 能 遇 到 的 主要 困 
难 ， 在 解决 商业 问题 时 ， 你 一 定 要 仔细 其 酌 这 些 技术 的 可 行 性 。 





















































第 6 章 


分 类 回归 树 








“最 好 的 分 类 器 可 能 是 随机 森林 ( RF )， 最 好 的 版 本 ( 用 R 开 发 ， 通 过 caret 调 用 ) 可 
以 在 84.3% 的 数据 集 上 达到 94.1% 的 最 大 正确 率 ， 超 过 了 90% 的 其 他 分 类 器 。” 


和 


费尔南德斯 -德尔 加 多 等 (2014) 


多 
上 文 引 自费 尔 南 德 斯 -德尔 加 多 等 人 在 《机 带 学 习 研究 期 刊 》 上 发 表 的 一 篇 论文 ， 从 这 段 话 6 
可 以 看 出 , 我 们 在 这 一 章 要 讨论 的 技术 非常 强大 , 特别 是 用 于 分 类 问题 时 。 当 然 ， 它们 不 是 永远 
的 最 优 解 ， 但 确实 提供 了 一 个 非常 好 的 起 点 。 


我 们 之 前 研究 的 技术 或 者 用 于 预测 定量 结果 , 或 者 用 于 预测 分 类 问题 。 本章 要 讨论 的 技术 对 
这 两 类 问题 都 适用 ,而 处 理 业务 问题 的 方式 和 前 几 章 不 同 。 我 们 不 引入 新 的 问题 ， 而 是 把 这 些 技 
术 用 于 前 面 已 经 解决 的 问题 , 着 眼 于 这 些 技术 能 否 提高 预测 能 力 。 总 而 言 之 , 本 章 案例 的 目的 就 
是 要 看 看 是 否 能 继续 改善 以 前 的 模型 。 


第 一 个 要 讨论 的 项 目 是 基础 的 决策 树 , 模型 建立 和 解释 都 非常 简单 。 但 单 决策 树 模型 的 表现 
并 不 如 我 们 研究 过 的 模型 那样 好 ， 比 如 支持 向 量 机 模型 ; 也 比 不 上 我 们 将 要 学 习 的 模型 ， 比 如 神 
经 网 络 模型 。 所 以 ,我 们 要 讨论 的 是 建立 多 个 (有 时 是 上 百 个 ) 不 同 的 树 ， 然 后 把 每 个 树 的 结果 
组 合 在 一 起 ， 最 后 形成 一 个 综合 的 预测 。 

正 像 本 章 开头 引用 的 论文 所 说 , 这 些 方法 产生 的 效果 不 次 于 甚至 超过 书 中 涉及 的 所 有 其 他 技 
术 。 这 些 技术 被 称 为 随机 森林 和 梯度 提升 树 。 此 外 , 在 讨论 商业 案例 之 余 ,我 们 还 会 介绍 如 何在 
数据 集 上 应 用 随机 森林 方法 ， 以 帮助 实现 特征 消除 ( 特征 选择 )。 













































































6.1 ”本章 技术 概述 


我 们 要 简单 介绍 本 章 涵盖 的 技术 , 包括 回归 树 与 分 类 树 、 随 机 森林 和 梯度 提升 ,为 使 用 这 些 
技术 分 析 实 际 商业 案例 打下 基础 。 
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6.1.1 回归 树 


要 想 理 解 基 于 树 的 方法 ,比较 容易 的 方式 是 从 预测 定量 结果 开始 , 然后 学 习 它 是 如 何 解 决 分 
类 问题 的 。 树 方法 的 精髓 就 是 划分 特征 ， 从 第 一 次 分 裂 开始 就 要 考虑 如 何 最 大 程度 改善 RSS ， 然 
后 持续 进行 二 又 分 裂 , 直到 树 结束 。 后 面 的 划分 并 不 作用 于 全 体 数 据 集 ， 而 仅 作 用 于 上 次 划分 时 
落 到 这 个 分 支 之 下 的 那 部 分 数据 。 这 个 自 顶 向 下 的 过 程 被 称 为 “递归 划分 "。 这 个 过 程 是 贪 禁 的 ， 
这 个 名 词 在 研究 机 带 学 习 方法 时 会 经 常 遇 到 。 贪 梦 的 含义 是 , 算法 在 每 次 分 裂 中 都 追求 最 大 程度 
减少 RSS， 而 不 管 以 后 的 划分 中 表现 如 何 。 这 样 做 的 结果 是 ,你 可 能 会 生成 一 个 带 有 无 效 分 支 的 
树 , 尽管 偏差 很 小 , 但 是 方差 很 大 。 为 了 避免 这 个 问题 , 生成 完整 的 树 之 后 , 你 要 对 树 进行 剪 校 ， 
得 到 最 优 的 规模 。 


下 图 给 出 了 使 用 树 进行 分 类 的 一 个 直观 的 实际 例子 。 假设 数据 集中 有 30 个 观测 ,响应 变量 的 
范围 是 1 ~ 10， 有 两 个 预测 特征 Xi 和 X2， 范 围 都 是 0 ~ 10。 整 个 树 有 3 个 分 支 和 4 个 终端 节点 。 每 
次 都 按照 基本 的 1f-then 语 句 ， 或 者 使 用 R 函 数 ifelse() 进行 分 裂 。 第 一 次 分 裂 的 条 件 是 X 是 
和 否 小 于 3.5， 响 应 变量 被 分 出 4 个 观测 ， 平 均值 为 2.4， 剩 余 26 个 观测 。 包 含 4 个 观测 的 左 侧 分 支 是 
一 个 终端 节点 ， 因 为 更 深 的 分 裂 已 经 不 能 明显 改善 RSS 了 。 树 的 这 部 分 划分 包含 的 4 个 观测 的 预 
测 值 就 是 平均 值 2.4。 下 一 次 分 裂 的 条 件 是 X; <4， 最 后 是 Xi < 7.5。 








































































































6.1 9.0 


N=12 N=6 














有 3 个 分 支 和 4 个 节点 的 回归 树 ， 节 点 下 面 标 有 均值 和 观测 数量 


这 种 方法 的 优点 是 可 以 处 理 高 度 非 线性 关系 , 但 它 还 存在 一 些 潜 在 的 问题 , 你 能 发 现 吗 ? 首 
要 的 问题 就 是 ， 一 个 观测 被 赋予 所 属 终端 节点 的 平均 值 ， 这 会 损害 整体 预测 效果 ( 高 偏差 )。 相 
反 ， 如 果 你 一 直 对 数据 进行 划分 , 树 的 层次 越 来 越 深 ,这样 可 以 达到 低 偏 差 的 效果 ,但 是 高 方差 
又 成 了 问题 。 和 其 他 方法 一 样 ， 你 也 可 以 用 交叉 验证 来 选择 合适 的 深度 。 
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6.1.2 分 类 树 
分 类 树 与 回归 树 的 和 运行 原理 是 一 样 的 ， 区 别 在 于 决定 分 裂 过 程 的 不 是 RSS ， 而 是 误差 率 。 这 
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里 的 误差 率 不 是 你 想 的 那样 ,简单 地 由 误 分 类 的 观测 数 除 以 总 观测 数 算出 。 实 际 上 ， 进 行 树 分 裂 
时 , 误 分 类 率 本 身 可 能 会 导致 这 样 一 种 情况 : 你 可 以 从 下 次 分 裂 中 获得 一 些 有 用 信息 ,但 误 分 类 
率 却 没有 改善 。 我 们 看 一 个 例子 。 


假设 有 一 个 节点 No， 节 点 中 有 7 个 标号 为 No 的 观测 和 3 个 标号 为 Yes 的 观测 ,我 们 就 可 以 说 误 
分 类 率 为 30%。 记 住 这 个 数 ， 然 后 通过 另 一 种 误差 测量 方式 进行 计算 ， 这 种 方式 称 为 基尼 指数 。 
单个 节点 的 基尼 指数 计算 公式 如 下 : 


基尼 指数 = 1 - (类 别 1 的 概率 )- (类 别 2 的 概率 ) 
所 以 ， 对 于 No， 基 尼 指数 为 1- (0.77 - (0.3)， 等 于 0.42， 与 之 相对 的 误 分 类 率 为 30%6。 


将 这 个 例子 讨论 得 更 深入 一 些 ， 假 设 将 节点 No 分 裂 成 两 个 节点 Ni 和 N:，Ni 中 有 3 个 观测 属于 
类 别 1， 没有 属于 类 别 2 的 观测 ; Nz 中 有 4 个 观测 属于 类 别 1，3 个 属于 类 别 2。 现 在 ， 树 的 这 个 分 文 
的 整体 的 误 分 类 率 还 是 30%， 那 么 看 看 整体 的 基尼 指数 是 如 何 改 善 的 : 


口 基尼 指数 (Ni1)= 1 (3/3)》-(0/3)=0 

口 基尼 指数 (N;) = 1 一 (4/7)- (3/7)2= 0.49 

口 新 基尼 指数 = (Ni 比例 x 基尼 指数 (N1))+(N; 比 例 x 基尼 指数 (N?)) = (0.3 x 0) + 
(0.7 x 0.49)=0.343 


通过 一 次 基于 替代 误差 率 的 分 裂 ， 我 们 确实 改善 了 模型 的 不 纯度 ， 将 其 从 原来 的 0.42 减 小 到 
0.343 ， 误 分 类 率 却 没 有 变化 。rpart () 包 就 是 使 用 Gini 指 数 测量 误差 的 , 在 本 章 中 我 们 会 使 用 这 
个 程序 包 。 

































































6.1.3 ”随机 森林 


为 了 显著 提高 模型 的 预测 能 力 , 我 们 可 以 生成 多 个 树 ， 然 后 将 这 些 树 的 结果 组 合 起 来 。 随 机 
森林 技术 在 模型 构建 过 程 中 使 用 两 种 奇妙 的 方法 ， 以 实现 这 个 构想 。 第 一 个 方法 称 为 自助 聚集 ， 


在 装 袋 法 中 , 使 用 数据 集 的 一 次 随机 抽样 建立 一 个 独立 树 , 抽样 的 数量 大 概 为 全 部 观测 的 2/3 
(请 记 住 ， 剩 下 的 1/3 被 称 为 党 外 数据 ，outrofbag )。 这 个 过 程 重 复 几 十 次 或 上 百 次 ， 最 后 取 平 均 
结果 。 其 中 每 个 树 都 任 其 生长 ， 不 进行 任何 基于 误差 测量 的 剪 枝 , 这 意味 着 每 个 独立 树 的 方差 都 
很 大 。 但是， 通过 对 结果 的 平均 化 处 理 可 以 降低 方差 .同时 又 不 增加 偏差 。 


另 一 个 在 随机 森林 中 使 用 的 方法 是 ,对 数据 进行 随机 抽样 ( 装 袋 ) 的 同时 ,独立 树 每 次 分 裂 时 
对 输入 特征 也 进行 随机 抽样 。 在 randomForest 包 中 ， 我 们 使 用 随机 抽样 数 的 默认 值 来 对 预测 特征 进 
行 抽样 。 对 于 分 类 问题 , 默认 值 为 所 有 预测 特征 数量 的 平方 根 ; 对 于 回归 问题 , 默认 值 为 所 有 预测 
地 征 数量 除 以 3。 在 模型 调 优 过 程 中 ， 每 次 树 分 裂 时 ， 算 法 随机 选择 的 预测 特征 数量 是 可 变 的 。 
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通过 每 次 分 裂 时 对 特征 的 随机 抽样 以 及 由 此 形成 的 一 套 方法 , 你 可 以 减轻 高 度 相 关 的 预测 特 
征 的 影响 , 这 种 预测 特征 在 由 装 袋 法 生成 的 独立 树 中 往往 起 主要 作用 。 这 种 方法 还 使 你 不 必 思 索 
如 何 减少 装 袋 导致 的 高 方差 。 独 立 树 彼此 之 间 的 相关 性 减少 之 后 , 对 结果 的 平均 化 可 以 使 泛 化 效 
果 更 好 ， 对 于 异常 值 的 影响 也 更 加 不 敏感 ， 比 仅 进 行 装 袋 的 效果 要 好 。 






































6.1.4 梯度 提升 


提升 法 的 学 习 和 理解 可 能 会 非常 复杂 ， 但 你 一 定 要 对 其 中 原理 有 基本 的 了 解 。 它 的 主要 思想 
是 ， 先 建立 一 个 某 种 形式 的 初始 模型 〈 线 性 、 样 条 、 树 或 其 他 )， 称 为 基 学 习 器 ; 然后 检查 残 差 ， 
在 残 差 的 基础 上 围绕 损失 函数 拟 合 模型 。 损 失 函 数 测量 模 型 和 现实 之 间 的 差别 ， 例 如 ， 在 回归 问 
题 中 可 以 用 误差 的 平方 ， 在 分 类 问题 中 可 以 用 逻辑 斯 带 函 数 。 一 直 继 续 这 个 过 程 ， 直 到 满足 某 个 
















































































特定 的 结束 条 件 。 这 与 下 面 的 情形 有 点 相似 : 一 个 学 生 进行 模拟 考试 ，100 道 题 中 错 了 30 道 , 然后 
只 研究 那 30 道 错 题 ， 在 下 次 模 考 中 ，30 道 题 中 又 错 了 10 道 ， 然 后 只 研究 那 10 道 题 ， 以 此 类 推 。 如 


果 你 想 更 加 深入 地 研究 背后 的 理论 ， 可 以 参考 Frontiers in Neurorobotics, Gradient boosting machines, 
a tutorial, Natekin A.,KnollA. (2013) ( http:/www.ncbi.nlm.nih.gov/pmc/atricles/PMC3885826/ )。 


刚才 提 到 过 , 提升 方法 可 以 用 于 很 多 不 同类 型 的 基 分 类 右 , 本 章 只 集中 讨论 基于 树 的 学 习 这 
个 主题 。 每 个 树 迭 代 的 次 数 都 很 少 ， 我 们 要 通过 一 个 调 优 参数 决定 树 的 分 裂 次 数 ， 这 个 参数 称 
为 交互 深度 。 事 实 上 ， 有 些 树 很 小 ， 只 可 以 分 裂 一 次 ， 这 样 的 树 就 被 称 为 “树桩 ”。 

这 些 树 依次 按照 损失 函数 拟 合 残 差 ， 直 至 达到 我 们 指定 的 树 的 数量 (我们 的 结束 条 件 )。 

使 用 Xgboost 包 进行 建 模 的 过 程 中 ， 有 一 些 参 数 需 要 调整 。Xgboost 表 示 eXtreme Gradient 


Boosting。 这 个 程序 包 表 现 优异 ,广泛 应 用 于 网 上 的 数据 科学 竞赛 。 在 下 面 这 个 网 站 中 ， 你 可 以 
找到 关于 提升 树 和 Xgboost 的 非常 详尽 的 背景 资料 : 




















http://xgboost.readthedocs.io/en/latest/model.html 

在 后 面 的 商业 案例 中 , 我 们 要 看 看 如 何 找到 最 优 的 超 参数 ,并 使 模型 生成 有 意义 的 结果 和 预 
测 。 这 些 参数 之 间 会 互相 作用 ， 如 果 你 只 攻 一 点 而 不 顾 其 他 ， 模 型 的 效果 可 能 会 越 来 越 差 。 在 调 
参 过 程 中 ，caret 包 会 助 你 一 臂 之 力 。 





6.2 商业 案例 


在 前 几 章 中 , 我 们 通过 努力 建立 了 一 些 模型 , 本 章 的 总 体 目标 是 看 看 我 们 能 否 提高 这 些 模型 
的 预测 能 力 。 对 于 回归 问题 , 重新 回 到 第 4 章 中 的 前 列 腺 癌 数 据 集 , 以 0.444 的 均 方 误差 作为 基准 ， 
看 看 能 否 改善 。 


对 于 分 类 问题 ， 我 们 使 用 第 3 童 中 的 乳腺 癌 数 据 集 和 第 5 章 中 的 皮 玛 印第安 人 糖尿 病 数 据 集 。 
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在 乳腺 癌 数 据 集中 , 我 们 取得 了 97.6% 的 预测 正确 率 。 在 糖尿 病 数据 集中 , 正确 率 是 79.6%, 我 们 
希望 再 提高 一 些 。 


随机 森林 和 提升 方法 都 会 用 于 这 3 个 数据 集 ， 简 单 树 模 型 只 用 于 乳腺 癌 数 据 集 和 前 列 腺 癌 数 
据 集 。 








6.2.1 模型 构建 与 模型 评价 


要 进行 模型 构建 ,需要 加 载 7 个 不 同 的 R 包 。 我们 会 实验 每 种 技术 , 并 与 前 面 章 节 中 介绍 的 方 
法 进行 对 比 ， 看 看 它们 在 数据 分 析 中 会 有 什么 突出 表现 。 


1. 回归 树 


我 们 直接 跳 到 前 列 腺 癌 数 据 集 ， 但 首先 要 加 载 所 需 的 R 包 。 当 然 ， 要 确定 在 加 载 之 前 你 已 经 
安装 了 它们 : 

















> library (rpart) #classification and regression trees 
library (partykit) #treeplots 

library (MASS) #breast and pima indian data 

library (ElemStatLearn) #prostate data 

library (randomForest) #random forests 

library (xgboost) #gradient boosting 

library (caret) #tune hyper-parameters 


先 用 prostate 数 据 集 做 回归 ， 像 第 4 音 中 那样 准备 好 数据 ， 包 括 调 出 数据 集 。 使 用 ifelse () 


函数 将 gleason 评 分 编码 为 指标 变量 ,划分 训练 数据 集 和 测试 数据 集 ， 训 练 数据 集 为 pros.train， 测 
试 数据 集 为 pros.test， 如 下 所 示 : 


> data(prostate) 


Vv vv vvyv 












































> prostates$sgleason <- ifelse(prostates$gleason == 6, 0, 1) 
> pros.train <- subset (prostate, train == TRUE)[, 1:9] 
> pros.test <- Subset (prostate, train == FALSE)[, 1:9] 


要 在 训练 数据 集 上 建立 回归 树 , 需要 使 用 party 包 中 的 rpart () 函数 , 语法 与 我 们 在 其 他 建 模 
技术 中 使 用 过 的 非常 类 似 : 


> tree.pros <- rpart(lpsa ~ ., data = pros.train) 
可 以 调 出 这 个 对 象 ， 然 后 检查 每 次 分 裂 的 误差 ， 以 决定 最 优 的 树 分 裂 次 数 : 


> print (tree.pros$cptable) 
CP nsplit rel error xerror xstd 














1 0.35852251 0 1.0000000 1.0364016 0.1822698 
2 0.12295687 1 0.6414775 0.8395071 0.1214181 
3 0.11639953 2 0.5185206 0.7255295 0.1015424 
4 0.05350873 3 0.4021211 0.7608289 0.1109777 
5 0.01032838 4 0.3486124 0.6911426 0.1061507 
6 0.01000000 5 0.3382840 0.7102030 0.1093327 
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这 个 表 对 于 我 们 的 分 析 非 常 重要 。 标 号 为 CP 的 第 一 列 是 成 本 复杂 性 参数 ， 第 二 列 nsplit 是 树 
分 裂 的 次 数 ，rel error 列 表示 相对 误差 ， 即 某 次 分 裂 的 RSS 除 以 不 分 裂 的 RSS (RSS(D/RSS(0) )， 
xerror 和 xstd 都 是 基于 10 折 交叉 验证 的 ，xerror 是 平均 误差 ，xstd 是 交叉 验证 过 程 的 标准 差 。 可 以 
看 出 ，5 次 分 裂 在 整个 数据 集 上 产生 的 误差 最 小 , 但 使 用 交叉 验证 时 ，4 次 分 裂 产生 的 误差 略微 更 
小 。 可 以 使 用 plotcp () 函数 查看 统计 图 : 
































> plotcp(tree.pros) 


上 述 命令 输出 如 下 。 





Size of tree 





X-val Relative Error 














cp 

















这 幅 图 使 用 误差 条 表示 树 的 规模 和 相对 误差 之 间 的 关系 ,误差 条 和 树 规模 是 对 应 的 。 选 择 树 
的 规模 为 5S， 也 就 是 经 过 4 次 分 裂 可 以 建立 一 个 新 的 树 对 象 ， 这 个 树 的 xerror 可 以 通过 剪 枝 达 到 最 
小 化 。 剪 枝 的 方法 是 先 建立 一 个 cp 对 象 ， 将 这 个 对 象 和 表 中 第 5 行 相关 联 ， 然 后 使 用 prune () 也 
数 完 成 剩 下 的 工作 : 


> cp <- min(tree.pross$cptable[5, ]) 
> prune.tree.pros <- prune(tree.pros, cp = cp) 


完成 上 面 的 代码 后 ， 可 以 用 统计 图 比较 完整 树 和 剪 枝 树 。 由 partykit 包 生成 的 树 图 明显 优 于 
party 包 生成 的 ， 在 plot () 函数 中 ， 你 可 以 简单 地 使 用 as .party () 函数 作为 包装 器 函数 : 























> plot(as.party(tree.pros)) 


上 述 命令 输出 如 下 页 图 。 
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同样 地 ， 使 用 as .party () 函数 处 理 剪 枝 树 : 
> Plot(as.party(Prune .tree.pros) ) 
述 命 EA 令 输 出 如 下 o 
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请 注意 ， 际 了 最后 一 次 分 裂 〈 完 整 树 包含 变量 age )， 两 个 树 是 完全 一 样 的 。 有 趣 的 是 ， 树 
的 第 一 次 分 裂 和 第 二 次 分 裂 都 与 肿瘤 大 小 的 对 数 ( lcavol ) 有 关 。 这 两 张 图 的 信息 量 都 很 大 ， 
因为 es 节点 、 每 节点 观测 数 ， 以 及 预测 结果 的 箱 线 图 。 


我 们 看 看 剪 枝 树 在 测试 集 上 表现 如 何 。 在 测试 数据 上 使 用 predict () 


函数 进行 预测 , 并 建立 

















一 个 对 象 保存 这 些 预 测 值 。 然 后 用 预测 值 减 去 实际 值 ， 得 到 误差 ， 最 后 算出 误差 平方 的 平均 值 : 


> party.pros.test <- predict (prune.tree.pros, newdata = pros.test) 





> rpart.resid <- party.pros.test - pros.test$lpsa 
> mean(rpart.resid^2) #caluclate MSE 
[1] 0.5267748 
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第 4 章 中 的 基准 MSE 为 0.44， 我 们 的 努力 并 没有 改善 预测 结果 。 但 是 ， 这 种 方法 并 非 一 无 
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处 。 从 生成 的 树 图 中 可 以 看 出 对 响应 变量 影响 最 大 的 特征 , 并 且 很 容易 解释 。 就 像 引言 中 说 过 的 ， 
树 模型 很 容易 理解 和 解释 ， 这 往往 比 正确 率 重 要 得 多 。 






































2. 分 类 树 
对 于 分 类 问题 ， 我 们 先 像 第 3 章 一 样 准备 好 乳腺 癌 数 据 。 加 载 数 据 之 后 ， 你 要 删除 患者 ID ， 
对 特征 进行 重新 命 和 名， 删除 一 些 缺失 值 ， 然 后 建立 训练 数据 集 和 测试 数据 集 。 如 下 所 示 : 


之 前 


准备 好 合适 的 数据 之 后 , 使 月 








> data(biopsy) 
> biopsy <- biopsy[, -1] #delete ID 
> names (biopsy) <- c("thick", "u.size", "u.shape", "adhsn", 
"s.size", "nucl", 
"chrom", "n.nuc", "mit", "class") #change the feature names 
> biopsy.v2 <- na.omit (biopsy) #delete the observations with 
missing values 
> set.seed(123) #random number generator 


> ind <- sample(2, nrow(biopsy.v2), replace = TRUE, prob = c(0.7, 


0.3)) 
> biop.train <- biopsy.v2[ind == 1, ] #the training data set 
> biop.test <- biopsy.v2[ind == 2, ] #the test data set 














， 要 确保 结果 变量 是 一 个 因子 ， 可 以 用 str () 函数 进行 检查 : 


> str(biop.test[, 10]) 
Factor w/ 2 levels "benign","malignant": 1 111121211... 


先生 成 树 ， 然 后 检查 输出 中 的 表格 ， 找 到 最 优 分 裂 次 数 : 





> set.seed(123) 


> tree.biop <- rpart(class ~ ., data = biop.train) 
> tree.biop$cptable 
CP nsplit rel error xerror xstd 


0.79651163 0 1.0000000 1.0000000 0.06086254 
0.07558140 1 0.2034884 0.2674419 0.03746996 
0.01162791 2 0.1279070 0.1453488 0.02829278 
0.01000000 3 0.1162791 0.1744186 0.03082013 


ODPp 








> cp <- min(tree.biop$cptable[3, ]) 
> prune.tree.biop <- prune(tree.biop, cp = cp) 
> plot(as.party (prune.tree.biop)) 


上 述 命令 输出 如 下 页 图 。 


有 和 前 面 回归 问题 一 样 的 代码 风格 来 解决 分 类 问题 。 建立 分 类 树 


交叉 验证 误差 仅 在 两 次 分 裂 后 就 达到 了 最 小 值 ( 见 第 3 行 ) 现在 可 以 对 树 进行 剪 枝 ， 再 在 图 
制 剪 枝 树 ， 看 看 它 在 测试 集 上 的 表现 : 
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从 对 树 图 的 检查 中 可 以 发 现 ， 细 胞 大 小 均匀 度 是 第 一 个 分 裂 点 ， 个 是 nuclei。 完 整 树 还 
有 一 个 分 支 是 细胞 浓度 。 使 用 predict ( ) 函数 并 指定 type="class"， 0 进行 预测 。 如 
下 所 示 : 
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> rparty.test <- predict (prune.tree.biop, newdata = biop.test, type 
="class") 

> table(rparty.test, biop.tests$class) 

rparty.test benign malignant 

benign 136 3 

malignant 6 64 

> (136+64)/209 

[1] 0.9569378 


只 有 两 个 分 支 的 基本 树 模 型 给 出 了 差不多 96% 的 正确 率 。 这 虽然 比 不 上 逻辑 斯 带 回归 的 正确 
率 97.6%， 但 足以 激励 我 们 相信 ， 在 随后 的 随机 森林 方法 中 会 得 到 更 好 的 改善 效果 。 


3. 随机 森林 回归 


在 这 一 节 中 , 我 们 还 是 先 处 理 前 列 腺 癌 数 据 集 , 然后 处 理 乳腺 癌 数 据 集 和 皮 玛 印第安 人 糖尿 
病 数据 集 ， 使 用 的 程序 包 是 randomForest 。 建 立 一 个 随机 森林 对 象 的 通用 语法 是 使 用 
randomForest () 函数 , 指定 模型 公式 和 数据 集 这 两 个 基本 参数 。 回 想 一 下 每 次 树 迭 代 默 认 的 变 
量 抽样 数 ， 对 于 回归 问题 ， 是 p/3; 对 于 分 类 问题 ， 是 p 的 平方 根 ，p 为 数据 集中 预测 变量 的 个 数 。 
对 于 大 规模 数据 集 ， 就 p 而 言 ， 你 可 以 调整 mtry 参 数 ， 它 可 以 确定 每 次 迭代 的 变量 抽样 数值 。 如 
果 p 小 于 10, 可 以 省 略 上 面 的 调整 过 程 。 想 在 多 特征 数据 集中 优化 mtry 参 数 时 , 可 以 使 用 caret 包 ， 
或 使 用 randomForest 包 中 的 tuneRF () 函数 。 了 解 这 些 情况 之 后 , 即 可 建立 随机 森林 模型 并 检查 模 
型 结果 。 如 下 所 示 : 

> set.seed(123) 


> rf.pros <- randomForest(lpsa ~ ., data = pros.train) 
> rf.pros 
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Call: 
randomForest (formula = lpsa ~ ., data = pros.train) 
Type of random forest: regression 
Number of trees: 500 
No. of variables tried at each split: 2 
Mean of squared residuals: 0.6792314 
% Var explained: 52.73 


调用 zf.pros 对 象 ， 可 以 知道 随机 森林 生成 了 500 个 不 同 的 树 ( 默认 设置 )， 并 且 在 每 次 树 分 裂 

















时 随机 抽出 两 个 变量 。 结 果 的 MSE 为 0.68， 差 不 多 53% 的 方差 得 到 了 解释 。 下 面 看 看 能 否 对 3 











著 认 


数量 的 树 做 一 些 改善 。 过 多 的 树 会 导致 过 拟 合 , 当然,“ 多 大 的 数量 是 “过 多 '” 依 赖 于 数据 规模 。 




















两 件 事 可 以 帮助 我 们 达到 目的 ， 第 一 是 做 出 rEpros 的 统计 图 ， 另 一 件 是 求 出 最 小 的 MSE: 
> plot(rf.pros) 


述 命令 输出 如 下 。 





rf.pros 





Error 
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这 个 图 表示 MSE 与 模型 中 树 的 数量 之 间 的 关系 。 可 以 看 出 ， 树 的 数量 增加 时 ， 一 开始 MSE 











会 有 显著 改善 ， 当 和 森林 中 大 约 建 立 了 100 棵 树 之 后 ， 改 善 几 乎 停滞 。 
可 以 通过 which.min() 函数 找 出 具体 的 最 优 树 数量 ， 如 下 所 示 : 























> which.min(rf.pros$mse) 
[1] 75 


可 以 试 试 有 75 棵 树 的 随机 森林 ， 在 模型 语法 中 指定 ntree = 75 即 可 : 


> set.seed(123) 

> rf.pros.2 <- randomForest(lpsa ~ ., data = pros.train, ntree 
=15) 

> rf.pros.2 

Calls 
randomForest (formula = lpsa ~ ., data = pros.train, ntree = 75) 
Type of random forest: regression 





6.2 商业 案例 113 





Number of trees: 75 

No. of variables tried at each split: 2 
Mean of squared residuals: 0.6632513 

% Var explained: 53.85 


可 以 看 到 , MSE 和 解释 方差 都 有 一 点 微小 的 改善 。 对 模型 进行 检验 之 前 ， 先 看 看 另 一 张 统计 
图 。 如 果 使 用 自助 抽样 和 两 个 随机 预测 变量 建立 了 75 棵 不 同 的 树 ， 要 想 将 树 的 结果 组 合 起 来 , 需 
要 一 种 方法 确定 哪些 变量 驱动 着 结果 。 独 木 不 成 林 , 你 需要 做 出 变量 重要 性 统计 图 及 相应 的 列表 。 
Y 轴 是 按 重 要 性 降序 排列 的 变量 列表 ，X 轴 是 MSE 改 善 百 分 比 。 请 注意 ， 在 分 类 问题 中 ，X 轴 应 
该 是 基尼 指数 的 改善 。 使 用 varImpPlot () 函数 生成 统计 图 : 






























































> varImpPlot (rf.pros.2, scale = T, 
main = "Variable Importance Plot - PSA Score") 


述 命 EA 令 输 出 如 下 。 





Variable Importance Plot - PSA Score 
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和 单个 树 模 型 一 致 ，1cavol 是 最 重要 的 变量 ，1lweight 次 之 。 如 果 想 查看 具体 数据 ， 可 以 
使 用 importance ( ) 范 数 。 如 下 所 示 : 


> importance (rf .pros.2) 
IncNodePurity 
lcavol 24.108641 
lweight 15.721079 
age 6.363778 
lbph 8.842343 
svi 9.501436 
lcp 9.900339 
gleason 0.000000 
pgg45 8.088635 


现在 可 以 看 看 模型 在 测试 数据 上 的 表现 : 


> rf.pros.test <- predict(rf.pros.2, newdata = pros.test) 
> rf.resid = rf.pros.test - pros.test$lpsa #calculate residual 
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> mean(zE.resid^2) 
[1] 0.5136894 


MSE 依 然 高 于 我 们 在 第 4 章 中 使 用 LASSO 得 到 的 0.44， 也 不 比 单个 树 模型 更 好 。 
4. 随机 森林 分 类 


你 可 能 会 对 随机 森林 回归 模型 的 表现 感到 失望 ， 但 这 种 技术 的 真正 威力 在 于 解决 分 类 问题 。 
我 们 从 乳腺 瘤 诊 断 数据 开始 ， 这 个 过 程 和 在 回归 问题 中 的 做 法 几乎 一 样 : 


> set.seed(123) 
> rf.biop <- randomForest(class ~. , data = biop.train) 
> rf.biop 
Call: 
randomForest (formula = class ~ ., data = biop.train) 
Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 3 
OOB estimate of error rate: 3.16% 
Confusion matrix: 
benign malignant class.error 
benign 294 8 0.02649007 
malignant 7 165 0.04069767 


OOB( 袋 外 数据 ) 误差 率 为 3.16%。 随 机 森林 还 是 由 默认 的 全 部 500 棵 树 组 成 。 画 出 表示 误 
差 和 树 的 数量 关系 的 统计 图 : 


> plot (rf .biop) 












































,不 八 人 大 个 
上 述 命令 输出 如 下 。 
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中 显示 ， 误差 和 标准 误差 的 最 小 值 是 在 树 的 数量 很 少 的 时 候 取 得 的 ， 可 以 使 用 
which.min() 函数 找 出 具体 值 。 和 前 面 不 同 的 一 点 是 ， 需 要 指定 第 一 列 来 得 到 误差 率 ， 这 是 整 
体 误 差 率 。 算 法 会 为 每 个 类 标号 的 误差 率 生 成 一 个 附加 列 ， 本 例 中 不 需要 它们 。 模型 结果 中 也 没 
有 mse， 而 是 代 之 以 err .rate。 如 下 页 代码 所 示 : 
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> which.min(rf.biop$err.rate[, 1]) 
[1] 19 


只 需 19 棵 树 就 可 以 使 模型 正确 率 达 到 最 优 。 实 验 一 下 ， 看 看 模型 的 表现 : 








> set.seed(123) 
> rf.biop.2 <- randomForest(class~ ., data = biop.train, ntree = 
19) 
> print (rf.biop.2) 
Call: 
randomForest (formula = class ~ ., data = biop.train, ntree = 19) 
Type of random forest: classification 
Number of trees: 19 
No. of variables tried at each split: 3 
OOB estimate of error rate: 2.95% 
Confusion matrix: 
benign malignant class.error 
benign 294 8 0.02649007 
malignant 6 166 0.03488372 
> rf.biop.test <- predict(rf.biop.2, newdata = biop.test, type = 
"response") 
> table(rf.biop.test, biop.test$class) 
rf.biop.test benign malignant 
benign 139 0 
malignant 3 67 
> (139 + 67) / 209 
[1] 0.9856459 


怎么 样 ? 训练 集 上 的 误差 率 还 不 到 3%, 在 测试 集 上 甚至 表现 得 更 好 。 测试 集 的 209 个 观测 中 ， 
只 有 3 个 观测 被 误 分 类 ， 而 且 没 有 一 个 是 误诊 为 “恶性 ”的 。 回 忆 一 下 ， 我 们 使 用 逻 辑 斯 蒂 回 归 
得 到 的 正确 率 最 好 结果 是 97.6%， 所 以 随机 森林 模型 就 是 至 今 为 止 在 乳腺 癌 数 据 上 的 最 佳 模 型 。 
进行 下 面 的 内 容 之 前 ， 先 看 看 变量 重要 性 统计 图 。 
























































> varImpPlot (zf.biop.2) 


上 述 命令 输出 如 下 。 
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上 页 图 中 , 变量 重要 性 是 指 每 个 变量 对 基尼 指数 平均 减少 量 的 贡献 , 此 处 的 变量 重要 性 与 单 
个 树 分 裂 时 有 很 大 区 别 。 回 忆 一 下 , 单个 树 是 在 细胞 大 小 均匀 度 开始 分 裂 的 〈 与 随机 森林 一 致 )， 
然后 是 nuclei ， 接 着 是 细胞 密度 。 这 揭示 了 随机 森林 技术 具有 非常 大 的 潜力 ， 不 但 可 以 提高 模 
型 预测 能 力 ， 还 可 以 改善 特征 选择 的 结果 。 


现在 ， 开 始 面 对 皮 玛 印 第 安 人 糖尿 病 模型 的 艰巨 挑战 。 我 们 先 做 好 数据 准备 ， 如 下 所 示 : 



































直 


> data(Pima.tr) 


> data(Pima.te) 

> pima <- rbind(Pima.tr, Pima.te) 

> set.seed(502) 

> ind <- sample(2, nrow(pima), replace = TRUE, prob = c(0.7, 0.3)) 
> pima.train <- pima[ind == 1, ] 

> pima.test <- pima[lind == 2, |] 


做 完 数据 准备 工作 ， 下 一 步 建立 模型 。 如 下 所 示 : 


> set.seed(321) 
> rf.pima = randomForest (type~., data=pima.train) 
> rf.pima 
Call: 
randomForest (formula = type ~ ., data = pima.train) 

Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 2 
OOB estimate of error rate: 20% 

Confusion matrix: 

No Yes class.error 
No 233 29 0.1106870 
Yes 48 75 0.3902439 


我 们 在 训练 数据 集 上 得 到 了 20% 的 误 分 类 误差 率 ， 并 不 比 以 前 的 结果 更 好 。 下 面 对 树 的 数目 
进行 优化 ， 看 看 能 否 显著 改善 模型 结果 : 


> which.min(rf.pima$err.rate[, 1]) 
[1] 80 
> set.seed(321) 
> rf.pima.2 = randomForest (type~., data=pima.train, ntree=80) 
> print (rf .pima.2) 
Call: 
randomForest (formula = type ~ ., data = pima.train, ntree = 80) 

Type of random forest: classification 
Number of trees: 80 
No. of variables tried at each split: 2 
OOB estimate of error rate: 19.48% 

Confusion matrix: 

No Yes class.error 
No 230 32 0.1221374 
Yes 43 80 0.3495935 


当 随 机 森林 中 有 80 棵 树 时 , OOB 误 差 有 些许 改善 。 随 机 森林 能 够 在 测试 集 上 证 明 自 己 吗 ? 
我 














I 
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们 来 看 一 下 。 如 下 所 示 : 


> rf.pima.test <- predict (rf.pima.2, newdata= pima.test, 
type = "response") 
> table(rf.pima.test, pima.tests$type) 
rf.pima.test No Yes 
No 75 21 
Yes 18 33 
> (75+33)/147 
[1] 0.7346939 


我 们 在 测试 集 上 只 得 到 了 73% 的 正确 率 ， 低 于 使 用 SVM 的 结果 。 


虽然 随机 森林 在 糖尿 病 数据 集 上 令 人 失望 , 但 它 已 经 证 明了 , 自己 在 乳腺 癌 诊 断 方面 是 迄今 
为 止 最 好 的 分 类 器 。 最 后 ， 我 们 实验 一 下 梯度 提升 方法 。 


5. 极限 梯度 提升 一 一 分 类 


我 们 提 到 过 , 在 这 一 节 要 使 用 已 经 加 载 的 xgboost 包 。 因 为 这 种 方法 的 效果 如 雷 贯 耳 , 所 以 我 
们 直接 用 它 解决 最 有 挑战 性 的 皮 玛 印第安 人 糖尿 病 问题 


正如 在 提升 算法 简介 中 所 说 ， 我 们 要 调整 一 些 参数 。 


D nrounds:; 最 大 迭代 次 数 ( 最 终 模 型 中 树 的 数量 )。 

口 colsample_pytree: 建立 树 时 随机 抽取 的 特征 数量 ， 用 一 个 比率 表示 ， 默 认 值 为 1 (使 
用 100% 的 特征 )。 

口 min_chilq_weight: os \ 权 重 ， 默 认为 1。 

D eta: 学 习 率 ， 每 棵 树 在 最 终 解 中 的 贡献 ， 默 认为 0.3。 

D gamma: 在 树 中 新 增 一 个 叶子 分 区 时 所 需 的 最 小 减损 。 

口 subsample: 子 样本 数据 占 整 个 观测 的 比例 ， 默 认 值 为 1 ( 100% )。 

口 max_depth: 单个 树 的 最 大 深度 。 
























































使 用 expandg.grid() 函 数 可 以 建立 实验 网 格 ， 以 运行 caret 包 的 训练 过 程 。 

对 于 前 面 列 出 的 参数 ， 如 果 没 有 设 定 具体 值 ， 那 么 即使 有 默认 值 , 运行 函数 时 也 

0 会 收 到 出 错 信息 。 下面 的 参数 取 值 是 基于 我 以 前 的 一 些 训 练 迭 代 而 设 定 的 。 建议 
各 位 亲自 实验 参数 调整 过 程 。 


使 用 以 下 命令 建立 网 格 : 





> grid = expand.grid( 

nrounds = c(75, 100), 

colsample bytree = 1, 

min child weight = 1, 

eta = c(0.01, 0.1, 0.3), #0.3 is default, 
gamma = c(0.5, 0.25), 

subsample = 0.5, 
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max depth = c(2, 3) 

) 

以 上 命令 会 建立 一 个 具有 24 个 模型 的 网 格 , caret 包 会 运行 这 些 模 型 , 以 确定 最 好 的 调 优 参数 。 
此 处 必须 提示 各 位 ， 对 于 我 们 现在 所 用 的 这 种 规模 的 数据 集 ， 代码 运行 过 程 只 需 几 秒 钟 , 但 对 于 
一 些 大 数据 集 ， 这 个 运行 过 程 可 能 需要 几 小 时 。 所 以 , 在 时 间 非 常 宝贵 的 情况 下 ， 你 必须 应 用 自 
己 的 判断 力 ， 并 使 用 小 数据 样本 来 找 出 合适 的 调 优 参数， 否则 硬盘 空间 可 能 不 足 。 


使 用 car 包 的 train () 函数 之 前 , 我 要 创建 一 个 名 为 cntr1 的 对 象 , 来 设 定 traincontrol 的 
参数 。 这 个 对 象 会 保存 我 们 要 使 用 的 方法 ， 以 训练 调 优 参数 。 我 们 使 用 $ 折 交叉 验证 ， 如 下 所 示 


> cntrl trainControll( 
method "Cv", 

number = 5, 
VerboseIter = TRUE, 
returnData = FALSE, 
returnResamp = "final" 


) 


要 使 用 train.xgb() 函数 ， 只 需 和 训练 其 他 模型 一 样 ， 设 定好 所 需 参数 即 可 : 训练 数据 集 、 
标号 、 训 练 控制 对 象 和 实验 网 格 。 记 得 要 设 定 随 机 数 种 子 : 


> Set .seed(1) 

> train.xgb = 七 Yain( 
x = pima.train[, 1:7], 
y = ,pima.train[, 8], 
trControl = cntrl, 
tuneGrid = grid, 
method = "xgbTree" 
) 


因为 在 trcontrol 中 设 定 了 verboseIter 为 TURE， 所 以 可 以 看 到 每 折 交 叉 验 证 中 的 每 次 训 
练 迭 代 。 


调用 train.xgb 这 个 对 象 可 以 得 到 最 优 的 参数 ， 以 及 每 种 参数 设置 的 结果 ,如 下 所 示 ( 有 
所 简 省 ): 
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> train.xgb 

eXtreme Gradient Boosting 

No pre-processing 

Resampling: Cross-Validated (5 fold) 

Summary of sample sizes: 308, 308, 309, 308, 307 
Resampling results across tuning parameters: 

eta max depth gamma nrounds Accuracy Kappa 


0.01 2 0.25 75 0.7924286 0.4857249 
0.01 2 0.25 100 0.7898321 0.4837457 
0.01 2 0.50 75 0.7976243 0.5005362 
0.30 3 0.50 75 0.7870664 0.4949317 


0.30 3 0.50 100 0.7481703 0.3936924 
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Tuning Parameter 'colsample bytree' was held constant at a 

value of 1 

Tuning parameter 'min child weight' was held constant at a 

value of 1 

Tuning parameter 'subsample' was held constant at a value of 0.5 

Accuracy was used to select the optimal model using the largest 
value. 

The final values used for the model were nrounds = 75, max depth = 
2, 

eta = 0.1, gamma = 0.5, colsample bytree = 1, min child weight = 1 
and subsample = 0.5. 


由 此 可 以 得 到 最 优 的 参数 组 合 来 建立 模型 。 模 型 在 训练 数据 上 的 正确 率 是 81%，Kappa 值 是 
0.55。 下 面 要 做 的 事情 有 点 复杂 , 但 我 认为 这 才 是 最 佳 实践 。 首 先 创建 一 个 参数 列表 ，, 供 Xgboost 
包 的 训练 函数 xgb.train() 使 用 。 然 后 将 数据 框 转换 为 一 个 输入 特征 和 矩阵， 以 及 一 个 带 标号 的 
数值 型 结果 列表 ( 其 中 的 值 是 0 和 1 )。 接 着 ， 将 特征 和 矩阵 和 标号 列表 组 合成 符合 要 求 的 输入 ， 即 
一 个 xgb .Dmatrix 对 象 。 代 人 码 如 下 : 









































> param <- list( objective = "binary:logistic", 
booster = "gbtree", 

eval metric = "error", 

eta = 0.1, 

max depth = 2, 

subsample = 0.5, 

colsample bytree = 1, 

gamma = 0.5 

) 
> x <- as.matrix(pima.train[, 1:7]) 
> yY <- ifelse(pima.train$type == "Yes", 1, 0) 
> train.mat <- xgb.DMatrix(data = x, label = y) 


这 些 准备 工作 完成 之 后 ， 即 可 创建 模型 . 


> set.seed(1) 
> xgb.fit <- xgb.train(params = param, data = train.mat, nrounds = 
75) 


在 测试 集 上 查看 模型 效果 之 前 ， 先 检查 变量 重要 性 ， 并 绘制 统计 图 。 你 可 以 检查 3 个 项 目 : 
gain 、cover 和 frequecy。gain 是 这 个 特征 对 其 所 在 分 支 的 正确 率 做 出 的 改善 ，cover 是 与 这 个 特征 
相关 的 全 体 观测 的 相对 数量 ,frequency 是 这 个 特征 在 所 有 树 中 出 现 的 次 数 百分比 。 以 下 代码 会 生 
成 我 们 需要 的 输出 : 


> impMatrix <- xgb.importance(feature names = dimnames (x)[[2]], 
model = xgb.fit) 
> impMatrix 
Feature Gain Cover Frequency 
glu 0.40000548 0.31701688 0.24509804 
age 0.16177609 0.15685050 0.17156863 
bmi 0.12074049 0.14691325 0.14705882 
ped 0.11717238 0.15400331 0.16666667 
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5 npreg 0.07642333 0.05920868 0.06862745 
6: skin 0.06389969 0.08682105 0.10294118 
7 bp 0.05998254 0.07918634 0.09803922 

> 








xgb.plot.importance(impMatrix, main = "Gain by Feature") 
上 述 命 令 输 出 如 下 。 
Gain by Feature 

glu 
age 
bmi 
ped 
npreg 
skin 
bp 
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与 其 他 方法 相 比 ， 这 个 特征 重要 性 图 有 什么 不 同 吗 ? 
下 面 看 看 这 个 模型 在 测试 集 上 的 表现 。 与 训练 集 一 样 ， 














结果 来 分 析 模 型 性 能 


> 1Library(InformationValue) 

> pred <- predict (xgb.fit, x) 

> optimalCutoff(y, pred) 

[1] 0.3899574 

> pima.testMat <- as.matrix(pima.test[, 1:7]) 


测试 集 数据 也 要 转换 为 矩阵 。 再 次 使 
用 InformationValue 包 中 的 工具 来 帮助 我 们 完成 这 个 任务 。 下 面 的 代码 先 加 载 程 序 库 , 再 生成 预测 


























= 0.39) 


> xgb.pima.test <- predict(xgb.fit, pima.testMat) 
> y.test <- ifelse(pima.test$type == "Yes", 1, 0) 
> confusionMatrix(y.test, xgb.pima.test, threshold 
01 
0 72 16 
1 20 39 
> 1 - misCclassError(y.test, xgb.pima.test, threshold = 0.39) 
[1] 0.7551 


你 注意 到 我 在 代码 中 使 用 optimalcutoff () 函数 做 的 





事情 了 吗 ? 这 个 Information 包 中 的 函 


PD a ee et 
模型 。 再 悄悄 告诉 你 ， 可 以 看 看 ROC 曲 线 ，AUC 超 过 了 0.8。 以 下 代码 可 以 生成 ROC 曲 线 : 








> plotROC(y.test, xgb.pima.test) 


代码 输出 如 下 页 图 。 
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6.2.2 ”模型 选择 


回忆 一 下 我 们 在 本 章 的 基本 目标 一 一 使 用 基于 树 的 学 习 方法 提高 前 几 章 中 得 到 的 模型 的 预 
测 能 力 。 我 们 有 什么 收获 ” 首先 ， 在 具有 定量 响应 变量 的 前 列 腺 癌 数 据 集 上 ， 第 4 章 已 经 得 到 了 
一 个 线性 模型 ,但 我 们 的 努力 没有 改善 这 个 模型 。 其 次 ,随机 森林 在 威斯康星 乳腺 癌 数 据 集 上 的 
表现 超过 了 第 3 章 中 的 逻辑 斯 带 回归 模型 。 最 后 ， 我 必须 失望 地 宣布 ， 在 皮 玛 印第安 人 糖尿 病 数 
据 集 上 ,使 用 提升 树 不 能 得 到 比 SVM 模 型 更 好 的 结果 。 


综 上 , 使 我 感到 欣慰 的 是 , 对 于 前 列 腺 癌 数 据 集 和 乳腺 癌 数 据 集 , 我 们 得 到 了 比较 好 的 模型 。 
第 7 章 将 介绍 神经 网 络 和 深度 学 习 的 概念 ， 我 们 会 再 次 尝试 改善 糖尿 病 模 型 。 开 始 下 一 童 之 前 ， 
我 想 介绍 一 种 使 用 随机 森林 技术 的 强大 的 特征 消除 方法 。 

















6.2.3 ”使 用 随机 森林 进行 特征 选择 


到 现在 为 止 , 我 们 已 经 介绍 了 几 种 特征 选择 技术 , 比如 正则 化 、 最 优 子 集 以 及 递归 特征 消除 。 
下 面 要 介绍 一 种 对 于 分 类 问题 非常 有 效 的 特征 选择 方法 , 这 种 方法 是 通过 随机 森林 实现 的 ,需要 
使 用 Boruta 包 。 有 一 篇 论文 详细 介绍 了 这 种 方法 如 何 选择 所 有 相关 特征 : 

Kursa M., Rudnicki W. (2010), Feature Selection with the Boruta Package, Journal of Statistical 
Sofitware, 36(11), 1 - 13 

在 这 一 节 , 我 会 简单 介绍 这 种 算法 ,然后 将 其 应 用 于 一 个 特征 非常 多 的 数据 集 。 我 发 现 这 种 
算法 非常 有 效 , 但 有 人 警告 我 ， 说 这 种 算法 非常 消耗 计算 能 力 ， 可 能 达 不 到 预想 的 效果 。 但 它 确 
实 可 以 有 效 消除 不 重要 的 特征 , 使 我 们 可 以 集中 精力 构建 一 个 更 简洁 、 更 有 效 , 也 更 有 意义 的 模 
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还 是 值得 花 时 间 学 习 的 。 
在 更 高 的 层次 上 , 算法 会 复制 所 有 输入 特征 ,并 对 特征 中 的 观测 顺序 进行 重新 组 合 ， 以 去 除 


























相关 性 , 从 而 创建 影子 特征 。 然 后 使 用 所 有 输入 特征 建立 一 个 随机 森林 模型 , 并 计算 每 个 特征 ( 包 
括 影子 特征 ) 的 正确 率 损 失 均 值 的 Z 分 数 。 如 果 某 个 特征 的 Z 分 数 显著 高 于 影子 特征 的 Z 分 数 , 那 
么 这 个 特征 就 被 认为 是 重要 的 ; 反之 ,这 个 特征 就 被 认为 是 不 重要 的 。 然 后 ， 去 除 掉 影 子 特征 和 
那些 已 经 确认 了 重要 性 的 特征 ， 重 复 上 面 的 过 程 ， 直 到 所 有 特征 都 被 赋予 一 个 表示 重要 性 的 值 。 
你 可 以 设 定 随机 森林 人 迭代 的 最 大 次 数 。 算 法 结束 之 后 ,每 个 初始 特征 都 会 被 标记 为 确认 、 待 定 或 
拒绝 。 对 于 待定 的 特征 ， 你 必须 自己 确定 是 否 要 包括 在 下 一 次 建 模 中 。 根 据 具体 情况 ， 你 可 以 有 


以 下 几 种 选择 ， 






























































口 改变 随机 数 种 子 ， 重 复 运 行 算法 多 次 〈 /次 )， 然 后 只 选择 那些 在 钦 运行 中 都 标记 为 “ 确 
认 ” 的 属性 ; 

口 将 你 的 训练 数据 分 为 c 折 ,在 每 折 数 据 上 分 别 进行 算法 迭代 , 然后 选择 那些 在 所 有 # 折 数据 
上 都 标记 为 “确认 ”的 属性 。 


请 注意 ,所 有 这 些 工作 都 可 以 用 几 行 代码 完成 。 下 面 查 看 代码 ， 并 将 其 应 用 于 Sonar 数 据 集 ， 





























这 个 数据 集 来 自 mlbench 包 。 数 据 集 中 有 208 个 观测 ，60 个 输入 特征 ， 以 及 1 个 用 于 分 类 的 标号 向 





















































三) 
里 a 





标号 是 个 因子 ， 如 果 sonar 对 象 是 岩石 ， 标 号 就 是 R; 如 果 sonar 对 象 是 矿藏 ， 标 号 则 是 M。 首 


先 加 载 数 据 ， 并 快速 进行 数据 探索 ; 


> daata(Sonar，Ppackage="mlbench" ) 
> dim(Sonar) 








[1] 208 61 
> table(SonarsClass) 
MR 
111 97 
要 运行 这 个 算法 ,你 只 须 加 载 Boruat 包 ， 然 后 在 boruta () 函数 中 创建 一 条 模型 公式 。 请 记 住 ， 

















标号 必须 是 因子 类 型 ， 否 则 算法 不 会 正常 执行 。 如 果 想 跟踪 算法 的 进程 ， 可 以 设 定 doTrace = 1。 
还 有 ， 不 要 忘 了 设 定 随 机 数 种 子 : 


> library (Boruta) 
> set.seed(1) 
> feature.selection <- Borutal(Class ~ ., data = Sonar, doTrace = 1) 


正如 我 们 前 面 提 到 过 的 , 这 个 算法 需要 大 量 的 计算 能 力 。 在 我 的 老式 笔记 本 电脑 上 , 需要 以 








下 这 么 长 的 时 间 : 


> feature.selections$timeTaken 
Time difference of 25.78468 secs 


从 一 个 简单 的 表格 可 以 得 出 最 终 重要 决策 的 计数 。 可 以 看 出 ,我 们 完全 能 够 去 除 大 约 一 半 
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> table(feature.selection$finalDecision) 
Tentative Confirmed Rejected 
12 31 17 


根据 以 上 结果 ， 可 以 很 容易 地 使 用 我 们 选择 的 特征 创建 一 个 新 的 数据 框 。 从 get selected 
Attributes () 函数 开始 ， 这 个 函数 可 以 找 出 特征 名 称 。 在 下 面 的 例子 中 ， 只 选择 那些 “确认 ” 
的 特征 。 如 果 想 包括 “确认 ”和 “待定 ”的 特征 ， 只 需 在 函数 中 指定 withTentative=TRUE: 



































> fNames <- getSelectedAttributes (feature.selection) # withTentative = 
TRUE 
> fNames 
[1] "V1" "V4" "V5" "V9" "V10"™" "V1i1l" "Vi12" "V13" "V1l5" "V16" 
[11] "V17" "V1i8" "V19" "V20" "V21" "V22"™ "V23"™ "V27"™ "V28" "V31" 
[21] "V35" "V36" "V37" "V44" "V45" "V46" "V47" "V48" "V49" "V51" 
[31] "V52" 


使 用 这 些 特征 名 称 ， 可 以 创建 一 个 Sonar 数 据 集 的 子 集 : 


























> Sonar.features <- Sonar[, fNames] 
> dim(Sonar.features) 
[1] 208 31 


一 切 搞定 ! 数据 框 Sonar.features 包 含 了 boruta 算 法 选择 的 所 有 “确认 ”特征 。 现 在 可 以 使 用 
它 进行 更 深入 、 更 有 意义 的 数据 探索 。 通过 几 行 代码 和 一 些 对 算法 运行 的 耐心 等 待 ， 即 可 显著 提 
高 建 模 工作 和 知识 生成 的 水 平 。 
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你 在 本 章 既 体会 了 基于 树 的 学 习 方法 在 处 理 分 类 和 回归 问题 方面 的 威力 , 也 看 到 了 它们 的 局 
限 性 。 单 个 树 模型 虽然 易于 构建 和 解释 , 但 对 于 我 们 试图 解决 的 多 数 问题 不 具备 必需 的 预测 能 
要 想 提 高 模型 的 预测 能 力 , 建议 使 用 随机 森林 和 梯度 提升 树 。 通 过 随机 森林 方法 可 以 建立 几 十 棵 
甚至 几 百 棵 树 , 这 些 树 的 结果 会 聚集 成 一 个 综合 的 预测 。 随 机 森林 中 的 每 棵 树 都 是 使 用 数据 抽样 
建立 的 ,抽样 的 方法 称 为 自助 法 ,预测 变 量 也 同样 进行 抽样 。 对 于 梯度 提升 方法 ， 先 创建 一 棵 初 
始 的 、 相 对 小 规模 的 树 ， 之 后 ， 基 于 残 差 或 误 分 类 会 生成 一 系列 树 。 这 种 技术 的 预期 结果 是 建立 
一 系列 树 ， 后 面 的 树 可 以 对 前 面 的 树 的 缺点 加 以 改善 ， 最 终 降 低 偏差 和 方差 。 我 们 还 知道 ， 在 了 R 
中 ， 可 以 使 用 随机 森林 作为 特征 选择 的 方法 。 

尽管 这 些 方法 确实 非常 强大 , 但 在 机 器 学 习 世 界 中 它们 不 是 万 能 的 。 不 同 的 数据 集 要 求 分 析 
者 根据 实际 情况 判断 应 该 使 用 什么 分 析 技 术 。 对 于 分 析 者 来 说 , 技术 的 选择 和 调 优 参数 的 选择 同 
等 重要 ,， 有些 预测 模型 是 好 的 , 但 有 些 预测 模型 是 伟大 的 , 这 种 不 断 调整 和 细 化 的 过 程 决定 了 二 
者 之 间 的 所 有 区 别 。 


下 一 章 的 主要 任务 是 ， 使 用 R 建 立 神经 网 络 和 深度 学 习 模型 。 



















































































神经 网 络 与 深度 学 习 








“在 大 数据 这 个 勇敢 新 世界 中 ， 忘 了 人 工 物 能 吧 ， 我 们 应 该 小 心 不 要 成 为 “人 工 智 
障 ”。” 





汤姆 查 特 菲尔德 


大 概 是 2012 年 年 中 , 我 参加 了 一 个 关于 某 个 分 析 结 果 的 小 组 讨论 。 人 们 围 坐 在 桌 旁 ， 有 个 家 
伙 罕 然 喊 了 起 来 :“ 这 不 就 是 什么 神经 网 络 吗 ?” 不 是 吗 ? ”语气 中 有 一 丝 丝 恼 经 ， 还 有 一 点 点 惊 
趣 。 我 知道 他 以 前 对 神经 网 络 非常 抵触 ， 还 有 着 根 次 蒂 固 的 焦虑 ， 于 是 ， 为 了 平息 他 的 忧虑 , 我 
发 表 了 一 通 尖 刻 的 评论 ,说 神经 网 络 已 经 像 恐 龙 一 样 走 在 灭绝 的 道路 上 了 。 居 然 没 有 人 表示 反对 ! 
几 个 月 之 后 , 我 列席 了 一 个 内 部 会 议 , 会 议 的 中 心 内 容 令 我 目瞪口呆 ,最 让 我 售 奇 的 就 是 神经 网 
络 和 不 可 思议 的 深度 学 习 。 吴 恩 达 、 杰 弗 里 ， 辛 顿 、 鲁 斯 兰 ， 萨 拉克 霍 特 迪 诺 夫 和 约 书 亚 ， 本 吉 
奥 这 些 机 器 学 习 的 先行 者 们 已 经 使 神经 网 络 起 死 回 生 ， 重 新 焕发 了 生机 与 活力 。 


很 多 媒体 都 在 热 炒 神经 网 络 和 深度 学 习 ， 把 它们 同 各 种 高 科技 公司 联系 在 一 起 ， 比 如 
Facebook、 谷 歌 或 Netflix, 这 些 公 司 在 神经 网 络 技术 上 投资 了 几 千 万 甚至 几 亿美 元 。 在 语音 识别 、 
图 像 识 别 、 机 械 制 造 和 自动 化 领域 , 神经 网 络 技术 也 取得 了 预期 的 成 果 。 如 果 自 动 驾 驶 汽车 不 在 
公路 上 横行 霸道 并 且 彼 此 撞 做 一 团 的 话 ， 我 也 很 愿意 把 它 放 在 我 们 要 讨论 的 主题 中 。 


我 们 将 在 本 章 讨 论 神经 网 络 的 使 用 方法 和 优 缺 点 ,以 便 你 能 够 真正 理解 和 掌握 这 种 技术 。 我 
们 会 详细 介绍 如 何 使 用 神经 网 络 完成 一 个 实际 的 商业 应 用 , 并 在 一 个 基于 云 的 应 用 上 面 使 用 深度 
























































































































































7.1 神经 网 络 介绍 


“神经 网 络 ” 的 概念 相当 宽泛 ， 它 包括 了 很 多 相关 的 方法 。 在 本 书 中 ,我 们 主要 关注 使 用 反 
向 传播 方法 进行 训练 的 前 馈 神 经 网 络 。 这 种 机 器 学 习 方法 与 生物 学 意义 上 的 大 脑 运 作 方 式 “ 和 而 
不 同 ”， 但 我 不 准备 浪费 时 间 讨论 。 我 们 只 需 从 神经 网 络 的 通用 定义 开始 ， 你 最 好 先 看 看 维基 百 
科 上 的 条 目 。 

















7.1 和 神经 网 络 介绍 125 





在 机 器 学 习 与 认 知 科学 领域 ,人工 神 经 网 络 是 一 系列 统计 学 习 模 型 , 它 的 灵感 来 自 于 生物 神 
经 网 络 〈 动物 中 央 神 经 系统 ， 特 别 是 大 脑 )， 用 来 估计 或 近似 那些 依赖 大 量 输入 且 通 常 未 知 的 功 
能 (https:/en.wikipedia.org/wiki/Artificial neural network )。 


开发 神经 网 络 模型 的 动机 (或 者 说 神经 网 络 模 型 的 优点 ) 在 于 ， 可 以 对 输入 变量 ( 特征 ) 和 
响应 变量 之 间 的 高 度 复杂 关系 进行 建 模 , 特别 是 关系 呈现 高 度 非 线性 时 。 神 经 网 络 模型 的 构建 和 
评价 不 需要 基本 假设 ， 对 于 定量 和 定性 响应 变量 都 适用 。 以 上 就 是 神经 网 络 中 的 “ 阴 ”， 下 面 看 
看 其 中 的 “ 阳 ”。 对 神经 网 络 的 一 种 常见 的 批评 就 是 ， 它 的 结果 是 一 个 黑 盒 。 换 言 之 ， 没 有 一 个 
人 带 有 系数 的 等 式 可 供 检 验 并 分 享 给 业务 伙伴 。 实 际 上 , 结果 几乎 是 无 法 解释 的 。 另 外 一 种 批评 意 
见 的 主要 内 容 是 ， 当 初始 的 随机 输入 发 生变 化 时 ,我 们 不 清楚 结果 会 发 生 什 么 变化 。 还 有 ,神经 
网 络 的 训练 过 程 需要 昂贵 的 时 间 和 计算 成 本 。 


神经 网 络 背 后 的 数学 理论 非常 艰深 , 尽管 如 此 , 我 们 至 少 应 该 理解 它 是 如 何 运 转 的 ， 这 一 点 
非常 重要 。 我 们 从 一 个 极其 简单 的 神经 网 络 图 解 开始 ， 这 是 直观 理解 神经 网 络 的 一 个 好 方式 。 


在 这 个 简单 的 网 络 中 ， 输 入 〈 又 称 协 变量 ) 由 两 个 节点 〈 又 称 神经 元 ) 组 成 。 标 有 1 的 神经 
元 代表 一 个 常数 ,更 确切 地 说 ,是 截 距 。 XI 代表 一 个 定量 变量 , W 代 表 权 重 , 会 和 输入 节点 的 值 
相 乘 。 输 入 节点 的 值 在 与 W 相 乘 后 传递 到 隐藏 节点 。 你 可 以 有 多 个 隐藏 节点 ,但 是 工作 原理 和 一 
个 隐藏 节点 没有 什么 不 同 。 在 隐藏 节点 Hl 中， 所 有 加 权 后 的 输入 值 被 加 总 。 因 为 截 距 为 1， 所 以 
这 个 输入 节点 的 值 就 是 权重 Wi。 然 后 就 是 见证 奇迹 的 时 刻 : 加 总 后 的 值 通过 激活 函数 进行 转换 ， 
将 输入 信号 转换 为 输出 信和 号。 在 这 个 简单 例子 中 ,Hi 是 唯一 的 隐藏 节点 ， 它 的 值 被 乘 以 W3， 成 
为 响应 变量 7 的 估计 值 。 这 就 是 算法 的 前 馈 部 分 。 


















































































































































> |f) 
W2 \ ~ 
2 — \ Se 
1. 加 总 函数 | | 2. 激 活 函 数 


输入 节点 隐藏 节点 输出 节点 














等 等 ， 还 没完 ! 要 完成 这 个 循环 ， 或 者 用 神经 网 络 中 的 说 法 ， 完 成 一 次 完整 的 “训练 ”， 还 
要 进行 反 向 传播 过 程 ， 基 于 学 习 到 的 知识 来 训练 模型 。 为 了 初始 化 反 向 传播 过 程 , 需要 基于 损失 
函数 确定 误差 ， 损失 函数 可 以 是 误差 平方 总 和 ， 也 可 以 是 交 又 焙 ,或 者 其 他 形式 。 因 为 权重 Wi 
和 Ws 最 初 被 设 定 为 [-1, 1H] 之 间 的 随机 数 , 所 以 初始 的 误差 可 能 会 很 大 。 反 向 传播 时 ， 要 改变 权重 
值 以 使 损失 函数 中 的 误差 最 小 。 下 页 的 图 描述 了 算法 的 反 向 传播 部 分 。 
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这 样 就 完成 了 一 次 完整 的 训练 。 这 个 过 程 不 断 继续 ,使 用 梯度 下 降 方法 (第 $ 章 ) 减 小 误差 ， 
直到 算法 收敛 于 误差 最 小 值 或 者 达到 预先 设 定 的 训练 次 数 。 如 果 假 设 本 例 中 的 激活 函数 是 简单 线 
性 的 ， 那 么 结果 为 Y= W3(Wi(D + W(X1))。 


如 果 你 增加 了 大 量 的 输入 神经 元 , 或 者 在 隐藏 节点 中 增加 多 个 神经 元 , 甚至 增加 多 个 隐藏 节 
点 ， 神 经 网 络 会 变 得 非常 复杂 。 请 一 定 注意 ,一 个 神经 元 的 输出 会 连接 到 所 有 后 继 的 神经 元 ,并 
将 权重 分 配给 所 有 连接 , 这 样 会 大 大 增加 模型 的 复杂 性 。 增 加 隐藏 节点 和 提高 隐藏 节点 中 神经 元 
的 数量 不 会 像 我 们 希望 的 那样 改善 模型 的 性 能 。 于 是 , 深度 学 习 得 以 发 展 , 它 可 以 部 分 放松 所 有 
神经 元 都 要 连接 的 要 求 。 


有 很 多 种 激活 函数 可 供 使 用 ， 其 中 包括 一 个 简单 线性 函数 ， 还 有 用 于 分 类 问题 的 sigmoid 函 
数 , 它 是 逻辑 斯 蒂 函 数 的 一 种 特殊 形式 ( 第 3 章 )。 当 输出 变量 是 基于 某 种 冰 值 的 二 值 变量 ( 0 或 1 ) 
时 ， 可 以 使 用 姜 值 轴 数 。 其 他 常用 的 激活 函数 还 有 Rectifier 、Maxout 以 及 双 曲 正切 函数 (tanh )。 


可 以 用 R 画 出 sigmoid 函 数 。 先 创建 一 个 R 函 数 ， 计 算 sigmoid 函 数值 : 

























































































> sigmoid = function(x) { 
1/(1+ exp(-x) ) 
} 


然后 ， 在 某 个 取 值 区 间 ( 比如 -5 ~5 ) 画 出 函数 就 非常 简单 了 : 





> x <- seq(-5, 5, .1) 
> plot (sigmoid (x)) 


上 述 命令 输出 如 下 页 图 。 
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tanh () 函数 ( 双 曲 正切 函数 ) 是 sigmoid 函 数 的 一 种 变 体 ， 它 的 输出 值 为 -1 ~ 1。tanh 函 数 和 
sigmoid 函 


tanh(x) =2* sigmoid(2x)— 1 
绘制 并 比较 tanh 函 数 和 sigmoid 函 数 。 仍 然 使 用 ggplot: 





> library (ggplot2) 
>s <- sigmoid(x) 

> 七 <- tanh(x) 
> 
> 





z <- data.frame(cbind(x, s, 七 ) ) 
ggplot (z, aes(x)) + 





geom line(aes(y = s, color = "sigmoid")) + 
geom line(aes(y = t, color = "tanh")) 
述 命令 输出 如 下 。 
1.0- 一 -一 
0.5 
二 colour 
j=] 
吴 00 sigmoid 
9 一 tanh 
-0.5 
-10- 一 一 一 一 = 
-50 -25 00 25 50 
Input 











既然 有 了 sigmoid 函 数 ， 为 什么 还 要 使 用 tanh 函 数 呢 ? tanh 函 数 在 神经 网 络 中 很 流行 吗 ? 对 于 
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这 些 问 题 , 真 可 谓 众说 纷 终 。 简 言 之 , 假设 你 对 数据 做 了 缩放 处 理 , 使 数据 的 均值 为 0、 方差 为 1， 
那么 tanh 函 数 就 可 以 提供 一 组 均值 接近 于 0( 以 0 为 中 心 ) 的 权重 。 这 样 的 权重 有 助 于 避免 偏差 ， 
并 可 以 提高 收敛 速度 。 想 象 一 下 ， 如 果 使 用 sigmoid 函 数 作为 激活 函数 ， 那 么 就 意味 着 从 输出 神 
经 元 到 输入 神经 元 都 是 正 的 权重 。 在 后 向 传播 过 程 中 , 这 样 就 会 导致 各 层 之 间 的 权重 或 者 都 是 正 
的 , 或 者 都 是 负 的 ， 从 而 引发 性 能 方面 的 问题 。 还 有 ， 因 为 sigmoid 函 数 在 两 个 尾部 (0 和 1 ) 的 
梯度 接近 于 0， 所 以 在 后 向 传播 过 程 中 ， 几 乎 没有 信和 号 在 不 同 层 次 的 神经 元 之 间 流 动 。 对 于 这 个 
问题 的 详细 讨论 可 以 参见 LeCun ( 1998 )。 请 注意 ,“tanh 函 数 效 果 更 好 ”也 并 非 定 论 。 


这 一 切 听 上 去 真 令 人 心 驰 神 往 , 但 ANN 表 现 得 并 不 像 传说 中 那么 好 , 特别 在 你 试图 使 用 具有 
多 个 隐藏 层 和 神经 元 的 深度 网 络 时 ,尤为 如 此 。 随 着 杰 弗 里 辛 顿 和 和 鲁 斯 兰 ' 萨 拉克 霍 特 迪 诺 夫 
2006 年 那 篇 论文 的 发 表 , 神经 网 络 又 披 着 一 层 新 的 外 衣 逐 渐 成 为 热门 。 但 让 我 说 的 话 ， 这 不 过 是 
对 神经 网 络 的 重新 包装 一 一 深度 学 习 。 





























7.2 深度 学 习 简介 


那么 , 到 底 什么 是 深度 学 习 ? 为 什么 它 能 吸引 如 此 多 的 注意 ? 抢占 如 此 多 头条 ? 我 们 还 是 先 
看 看 维基 百科 上 的 通用 定义 : 深度 学 习 是 机 器 学 习 的 一 个 分 支 ， 它 基于 一 整套 算法 ,试图 对 数据 
中 的 高 层次 抽象 进行 建 模 , 建 模 过 程 需要 使 用 带 有 复杂 结构 或 其 他 结构 的 由 多 重 非 线性 转换 组 成 
的 模型 体系 结构 。 这 个 定义 看 上 去 出 自 某 位 律师 之 手 。 深度 学 习 的 基础 就 是 神经 网 络 , 它 的 特点 
其 实 就 是 使 用 机 器 学 习 技术 (一 般 是 无 监督 学 习 ) 在 输入 变量 的 基础 之 上 构建 新 的 特征 。 在 后 面 
的 章节 中 , 我们 要 对 一 些 无 监督 学 习 技术 进行 深入 研究 。 现在, 你 可 以 认为 它们 就 是 在 没有 响应 
变量 的 情况 下 寻找 数据 中 的 结构 或 模式 。 元 素 周期 表 就 是 一 个 经 典 的 例子 , 它 在 没有 指定 响应 变 
量 时 找 出 数据 结构 。 你 展开 元 素 周 期 表 就 会 看 到 ， 它 是 按照 原子 结构 排列 , 金属 在 一 侧 ， 非 金属 
在 男 一 侧 ， 基 于 潜在 分 类 ( 结构 ) 建立 。 这 种 对 潜在 结构 ( 层次 ) 的 识别 就 是 深度 学 习 与 那些 干 
篇 一 律 的 ANN 的 区 别 所 在 。 相 比 于 那些 只 有 原始 输入 的 问题 , 深度 学 习 应 该 更 适用 于 那 种 可 以 通 
过 算法 对 输出 结果 进行 更 好 表示 的 问题 。 换 句 话 说 ,模型 在 仅 有 原始 像素 作为 唯一 输入 的 情况 下 ， 
能 够 学 会 对 照片 进行 分 类 吗 ?” 当 你 有 少量 标记 过 的 响应 变量 和 海量 未 标记 的 输入 数据 时 , 深度 学 
习 非 常 有 用 。 你 可 以 通过 无 监督 学 习 方 法 训练 深度 学 习 模 型 , 然后 通过 监督 式 方法 将 其 应 用 在 标 
记过 的 数据 上 ， 这 样 向 前 /向 后 不 断 迭 代 。 


要 用 数学 解释 这 种 潜在 结构 的 识别 是 非常 有 难度 的 ， 但 我 们 在 第 4 章 介绍 过 的 正则 化 概念 正 
是 一 个 例子 。 在 深度 学 习 中 ， 你 可 以 使 用 正则 化 方法 对 权重 进行 惩罚 ， 比 如 L1 ( 惩罚 非 0 权重 )、 
L2 (惩罚 过 大 权重 ) 和 丢弃 ( 随机 忽略 某 种 输入 ， 将 其 权重 归 零 )。 标 准 神经 网 络 中 不 使 用 这 些 
正则 化 技术 。 


另外 一 种 识别 潜在 结构 的 方式 是 降低 数据 的 维度 ， 比 如 自动 编码 器 。 在 这 种 神经 网 络 中 ， 输 
入 被 转换 为 一 组 降低 了 维度 的 权重 。 请 注意 ， 下 页 图 中 的 特征 A 和 一 个 隐藏 节点 之 间 没 有 连接 。 
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这 种 方法 可 以 递归 使 用 ， 学 习 可 以 在 多 个 隐藏 层 之 间 进 行 。 你 在 这 个 例子 中 能 发 现 的 就 是 ， 
制造 新 特征 ,以 至 于 它们 互相 堆 秋 在 一 起 。 深度 学 习 会 先 在 两 个 层 之 间 











网 络 在 不 断 使 用 原 有 特 和 





于 
[LT 











按 前 后 顺序 学 习 权 重 , 然后 使 用 反 向 传播 方法 对 这 些 权 重 进行 微调 。 其 他 的 特 和 


限 波 尔 益 曼 机 和 稀疏 编码 模型 。 


深度 学 习 技术 的 细节 已 经 超出 本 书 范围 
从 下 面 两 个 网 站 开始 : 











DD http://www.cs.toronto.edu/~hinton/ 





口 http://deeplearning.net/ 


深度 学 习 在 很 多 分 类 问题 上 表现 得 非常 好 ， 还 赢得 了 一 








它 也 受到 一 些 问题 的 困扰 , 最 主要 的 就 是 黑 盒 问题 。 你 可 以 试 着 向 不 明 情 况 的 人 解释 
络 中 都 发 生 了 什么 。 尽 管 如 此 ， 对 于 那 种 “不 管 黑 猫 白 猫 ， 提 住 老 




















， 想 要 深入 学 习 的 话 ， 有 很 多 资源 可 以 使 用 。 你 
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可 以 


历次 Kaggle 竞 赛 。 和 神经 网 络 一 样 ， 
下 神经 网 
鼠 就 是 好 猫 ” 的 问题 ,深度 学 


























习 是 非常 适合 的 。 归 根 结 底 , 我 们 真 的 想 知道 自动 驾驶 汽车 为 什么 可 以 避 开 行人 吗 ?” 或 者 说 , 我 
们 更 关注 的 难道 不 是 自动 驾驶 汽车 是 否 撞 到 了 行人 吗 ? 多 说 一 句 , Python 社 区 在 深度 学 习 的 使 用 
和 软件 开发 方面 领先 R 社 区 一 步 。 我 们 在 后 面 的 实战 练习 中 会 看 到 ， 这 个 距离 正在 逐渐 缩小 ,但 














还 没有 完全 消除 。 


不 管 怎么 说 , 深度 学 习 都 是 一 种 激动 人 心 的 技术 。 应 该 注意 的 是 , 要 想 发 挥 这 项 技术 的 全 部 


威力 ， 你 不 但 需要 强大 的 计算 能 力 ， 还 需要 花费 大 量 时 间 ， 通 过 微调 超 参数 去 训练 最 优 模 型 。 
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下 是 一 些 注意 事项 ; 


口 激活 函数 
D 隐藏 层 的 规模 








以 





130 第 7 章 神经 网 络 与 深度 学 习 























口 降低 维度 的 方法 ( 受 限 波 尔 兹 曼 机 还 是 自动 编码 器 ) 
口 完整 训练 的 次 数 

口 梯度 下 降 学 习 率 

口 损失 函数 

口 正则 化 




















深度 学 习 资 源 与 高 级 方法 

TensorFlow "提供 了 一 个 可 交互 的 窗口 部 件 , 地 址 是 http://playground.tensorflow.org/。 这 个 可 
视 化 工具 非常 有 趣 ,你 可 以 用 它 进行 学 习 和 人 解释。 对 于 分 类 问题 或 回归 问题 , 你 可 以 使 用 这 个 工 
具 探 索 (这 个 站 点 称 为 tinker ) 不 同 的 参数 组 合 ， 看 看 它们 对 响应 变量 的 影响 。 我 愿意 ( 实际 上 
已 经 ) 花费 数 小 时 使 用 这 个 工具 进行 探索 。 


交 给 你 一 项 非常 有 意思 的 任务 : 自己 设计 一 个 实验 ,看 看 不 同 的 参数 组 合 如 何 影 
响 你 的 预测 。 


















































现在 ，TensorFlowI 和 MXNet 似 乎 是 成 长 最 快 的 两 种 深度 学 习 工 具 。 我 还 是 选择 使 用 H20 包 
来 工作 ， 这 个 程序 包 会 在 后 面 介绍 。 但 是 ， 学 习 和 理解 最 新 技术 是 非常 重要 的 。 你 可 以 通过 R 使 
用 TensorFlow 玫 ,但 需要 先 安 装 Python。 下 面 的 这 个 系列 教程 会 指导 你 如 何 完成 这 个 任务 : 








https://rstudio.github.io/tensorflow/ 


MXNet 并 不 要 求 安装 Python, 它 的 安装 和 使 用 也 比较 容易 。MXNet 还 提供 了 很 多 已 经 训练 好 
的 模型 ， 可 以 使 你 快速 开始 预测 。 下 面 的 网 址 中 有 一 些 R 的 教程 : 











http://mxnet.io/ 
下 面 ， 我 要 花 一 些 篇 幅 列举 深度 神经 网 络 的 几 个 变 体 ， 以 及 它们 适用 的 学 习 任 务 。 


卷 积 神经 网 络 : 前 提 假 设 是 输入 为 图 像 ， 并 使 用 一 小 部 分 数据 或 数据 切片 来 创建 特征 ,并 将 
寺 征 组 合 创建 特征 映射 图 。 这 些小 数据 切片 可 以 作为 网 络 在 训练 过 程 中 学 习 的 过 滤 右 , 或 者 更 确 
切 地 说 ， 是 卷 积 核 。CNN 的 激活 函数 是 线性 整流 函数 ， 它 的 简单 形式 是 ftx) = max(0, x)， 其 中 x 是 
神经 元 的 输入 。CNN 在 图 像 分 类 、 目 标 检测 甚至 句子 分 类 方面 的 效果 非常 好 。 


循环 神经 网 络 : 创建 RNN 的 目的 是 利用 序 贯 信息 。 在 传统 神经 网 络 中 , 输入 与 输出 之 间 是 
互相 独立 的 。 而 在 RNN 中 ， 输 出 则 依赖 于 上 一 层 的 计算 结果 ， 人 允许 信息 在 层 与 层 之 间 保 持 。 所 
以 ， 对 于 一 个 神经 元 的 输出 〈? )， 并 不 仅 是 根据 它 的 输入 计算 出 来 的 ， 还 要 包括 所 有 上 层 的 输 
出 (1 一 1、t-n…)。RNN 对 于 笔迹 检测 和 语音 检测 特别 有 效 。 


长 短期 记忆 网 络 : LSTM 是 RNN 的 一 种 特殊 形式 。RNN 有 一 个 问题 ， 它 在 具有 长 期 信号 的 数 
据 上 表现 不 佳 。 于 是 , 数据 科学 家 们 创建 了 LSTM 来 捕获 数据 中 的 复杂 模式 。 在 训练 过 程 中 , RNN 
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组 合 信息 时 , 对 来 自 以 前 步骤 的 信息 以 同样 的 方式 进行 处 理 , 没有 考虑 不 同步 又 中 的 信息 在 价值 
上 多 少 会 有 些 不 同 。LSTM 通 过 确定 在 训练 过 程 中 的 每 个 步骤 要 记 住 哪些 信 息 ， 以 此 克服 RNN 的 
这 种 局 限 性 。 这 时 的 权重 矩阵 通过 数据 向 量 实 现 了 倍增 , 在 LSTM 中 称 为 “ 门 ”, 它 的 作用 就 是 过 
滤 信 息 。LSTM 中 的 神经 元 有 两 个 输入 和 两 个 输出 ， 它 接受 来 自 上 一 层 神 经 元 的 输出 和 从 前 一 个 门 
传递 过 来 的 记忆 向 量 , 然后 生成 输出 值 和 输出 记忆 向 量 , 作为 下 一 层 的 输入 。LSTM 的 局 限 性 在 于 ， 
它 需要 完整 清晰 的 训练 数据 以 及 非常 高 的 计算 能 力 。LSTM 在 语音 识别 问题 上 的 效果 非常 好 。 





















































6 我 建议 你 学 习 MXNet 的 教程 ， 它 有 助 于 理解 这 些 模 型 并 为 你 所 用 。 
好 了 ， 下 面 我 们 看 一 些 实际 的 应 用 。 
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1998 年 4 月 20 日 ， 一 个 平静 祥和 的 夜晚 ， 我 作为 修 斯 500D 直 升 机 上 的 一 名 见习 飞行 员 ， 正 在 
进行 长 途 飞 行 , 从 明尼苏达 州 圣保罗 市 中 心机 场 返回 北 达科他 州 大 福克斯 ， 回 到 熟悉 又 温馨 的 家 
乡 。 这 是 我 通过 考试 并 获得 直升机 仪表 等 级 要 求 的 最 后 一 次 飞行 。 飞 行 日 志 显 示 ， 此 时 我 们 距离 
2 号 航道 指示 标 上 的 VOR 导 航 系 统 还 有 35DME ( Distance Measuring Equipment， 测 距 装置 ), 或 者 
说 是 35 海 里 。 这 说 明 ， 我们 正 位 于 明尼苏达 州 圣 克 劳 德 市 南部 (或 东南 部 ) 的 某 个 地 方 ， 在 高 于 
海平 面 4500 英 尺 的 高 度 (我 记忆 中 是 这 样 的 ) 以 120 节 的 速度 巡航 。 然 后 ， 事 故 发 生 了 …… 侠 ! 
毫 不 夸张 地 说 ， 就 像 一 个 巨 雷 在 头 上 炸 响 ， 紧 跟着 ， 一 团 飓 风 似 的 气流 拍 在 我 的 脸 上 。 


这 一 切 发 生 的 时 候 , 我 的 飞行 教练 正在 问 我 一 些 基 本 问题 , 是 关于 进入 明尼苏达 州 亚 历 山 德 
里 亚 市 的 仪表 进 场 着 陆 计 划 的 。 我 们 交换 了 飞机 控制 权 , 我 弯 下 身 去 ,查看 放 在 膝 板 上 的 仪表 进 
场 过 程 图 。 就 在 我 “ 哟 ”地 一 声 打 开 红 色 内 光 信号 灯 的 那 一 刻 , 爆炸 发 生 了 。 当 时 我 正大 头 天 下 ， 
那 声音 , 那 接 呈 而 至 的 气流 ,使 我 的 脑海 中 一 瞬间 充斥 着 好 几 种 想法 : 直升机 要 完蛋 了 ,我 就 要 
死 了 ;“ 挑 战 者 ”号 航天 飞机 的 爆炸 就 像 高 清 电 影 一 样 出 现在 我 的 脑海 里 。1.359 秒 之 后 , 我们 停 
止 了 尖 叫 ， 意 识 到 自己 面前 的 树脂 挡 风 玻 璃 已 经 基本 上 没有 了 , 但 其 他 一 切 还 算 好 。 将 飞机 减速 
之 后 ,我 们 仓促 地 检查 了 一 下 ,发 现 直升机 驾驶 舱 内 满 是 鲜血 、 内 脏 和 羽毛 。 真 是 不 可 思议 ,我 
们 居然 在 明尼苏达 中 部 的 上 空 撞 上 了 一 只 绿 头 野 网 , 造成 的 后 果 就 是 挡 风 玻璃 完全 损坏 。 如 有 果 我 
没有 弯 腰 查看 膝 板 的 话 , 就 会 被 血肉 糊 一 脸 。 我 们 向 明 尼 阿 波 利 斯 指挥 中 心 简单 地 告知 了 紧急 情 
况 ， 然 后 终止 了 飞行 计划 ,， 像 “ 备 菲 斯 美女 ”号 一 样 ， 跌 跌 撞 撞 地 飞 到 了 亚 历 山 德里 亚 市 ， 等 待 
来 自 北 达科他 大 学 的 同胞 的 救援 。 


我 为 什么 要 哆 嗪 这 些 ? 好 吧 ， 我 是 想 说 我 对 美国 国家 航空 航天 局 和 宇航 员 有 多 么 狂热 的 尝 
拜 。 在 一 个 危机 时 刻 ,， 那 一 瞬间 我 认为 这 辈子 已 经 完了 , 我 的 思维 还 漂移 到 航天 飞机 上 去 了 。 我 
这 个 年 纪 的 多 数 男性 都 想 和 乔治 ' 布雷 特 或 韦 恩 ' 格雷 次 基 握 手 , 我 则 希望 同 巴 兹 . 奥 尔 德 林 握 
手 。 实 际 上 , 我 也 确实 做 到 了 ( 别 忘 了 , 他 当时 正 任教 于 北 达科他 大 学 )。 于 是 ， 当 我 发 现 MASS 
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由 


包 中 有 shuttle 数 据 集 时 ， 认 为 必须 在 这 本 书 中 介绍 它 。 顺 便 说 一 句 ， 如 果 你 有 机 会 去 肯尼迪 航天 
中 心 参观 “ 亚 特 兰 带 斯 ”号 航天 飞机 ， 那 千 万 不 要 错过 。 


在 这 个 案例 中 , 我们 将 开发 一 个 神经 网 络 模型 ,来 回答 “航天 飞机 是 否 应 该 使 用 自动 着 陆 系 
统 ” 这 一 问题 。 默认 的 决策 是 让 机 组 人 员 控 制 飞船 着 陆 , 但 在 以 下 两 种 情况 下 需要 自动 着 陆 系统 : 
一 是 当 机 组 人 员 失 去 控制 飞船 的 能 力 时 ; 二 是 当 飞 船 脱 离 轨道 之 后 重新 进入 轨道 ,从 而 需要 对 抗 
重力 时 。 数据 是 由 计算 机 模拟 产生 的 , 不 是 从 实际 的 飞行 过 程 中 得 来 的 。 实 际 上 ， 自 动 着 陆 系统 
通过 了 一 些 非常 严格 的 测试 , 绝 大 多 数 倩 况 下 , 在 飞船 着 陆 过 程 中 , 由 宇航 员 决 定 是 否 使 用 自动 
着 陆 系统 。 在 以 下 的 两 个 链接 可 以 找到 更 多 背景 信息 : 
















































































DD http:/www.sapceref.com/news/viewsr.html?pid=10518 
口 https://waynehale.wordpress.com/2011/03/11/breaking-through/ 





7.4 数据 理解 和 数据 准备 
我 们 需要 加 载 以 下 4 个 R 包 ， 数 据 保 存在 MASS 包 中 


> library (caret) 

> library (MASS) 

> library (neuralnet) 
> library (vcd) 


Neuralnet 包 用 于 构建 模型 ，caret 包 用 于 数据 准备 ，vcd 包 会 帮助 我 们 进行 数据 可 视 化 。 先 加 
载 数 据 ， 检 查 数据 结构 : 


> data(shuttle) 
> str(shuttle) 
'data.frame':256 obs. of 7 variables: 
$ stability: Factor w/ 2 levepicels "stab","xstab": 2 2 2 2 2 2 2 
» 
$ error : Factor w/ 4 levels "LX","MM","SS",..: 1 1111111 
1 1 
$ sign : Factor w/ 2 levels "nn","pp": 2222221111... 
wind : Factor w/ 2 levels "head","tail": 1 1 12221112 


Ur 


$ magn : Factor w/ 4 levels "Light","Medium",..: 1 241241 
2 4 1 ss 
$ vis : Factor w/ 2 levels "no","yes": 1 111111111 


$ use : Factor w/ 2 levels "auto","noauto": 111111111 
1 


数据 集 包 括 256 个 观测 和 7 个 变量 。 请 注意 ， 所 有 变量 都 是 分 类 变量 ， 响 应 变量 use 有 两 个 水 
平 ，auto 和 noauto。 协 变量 如 下 所 示 。 























口 stability: 能 否 稳定 定位 ( stab/xstab ) 
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口 error: 误差 大 小 (MWSS/LX ) 

口 sign: 误差 的 符号 ， 正 或 负 (pp/nn ) 

口 wind: 风向 的 符号 (heagd/tail ) 

口 magn: 风力 强度 (Light/Medium/Strong/Out of Range ) 
口 vis: 能 见 度 (yes/no ) 


我 们 将 建立 一 些 表 格 来 探索 数据 ， 先 从 响应 变量 ( 结果 ) 开始 : 


> table(shuttles$use) 
auto noauto 
145 生生 本 


使 用 自动 着 陆 的 决策 比例 为 57%。 We ne tt a table () 函数 完美 适 
用 于 两 个 变量 之 间 的 对 比 ， 但 如 果 加 入 第 三 个 变量 ， te es 了 很 多 
制 表 和 制图 函数 ， 其 中 一 个 是 structable () ， 这 个 函数 的 语 公式 是 ( 列 1 + 列 2 ~ 列 3 )， 列 3 
会 在 表格 中 以 行 的 形式 出 现 : 


















































> tablel <- structable(wind + magn ~ use, shuttle) 





> tablel 

wind head tail 

magn Light Medium Out Strong Light Medium Out Strong 
use 
auto 19 19 16 18 19 19 16 19 
noauto 3 13 16 14 13 13 16 13 





在 表 中 , 我们 可 以 看 出 在 逆风 的 情况 下 ， 如 果 风 力 为 轻微 (Lignt ), 那么 自动 着 陆 ( auto ) 
发 生 19 次 ， 非 自动 着 陆 (noauto ) 发 生 13 次 。vcd 包 提供 了 mosaic () 函数 ， 将 structable() 
函数 生成 的 表格 绘制 成 统计 图 ， 同 时 提供 了 卡 方 检验 的 p 值 。 


> mosaic(tablel, shading = T) 


述 命令 输出 如 下 。 








wind 
head tai 





Pearson 
residuals: 
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USe 
































上 0.00 








noauto 











-0.50 
p-value = 
0.99844 
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图 中 的 方块 可 以 表示 表格 中 相应 位 置 的 数值 比例 ， 按 递归 的 方式 排列 。 还 可 以 看 到 ，P 值 是 
不 显著 的 ， 所 以 特征 与 响应 变量 不 相关 。 这 说 明 ， 风 力 强 度 magn 不 能 帮助 我 们 预测 是 否 使 用 自 
动 着 陆 。 如 果 要 生成 统计 图 ， 也 可 以 不 使 用 structable () 建立 的 对 象 ， 因 为 mosaic () 函数 也 
可 以 接受 公式 : 





> mosaic(use ~ error + Vis, shuttle) 
































` 太 全 ;人 人 、 
上 述 命 令 输 出 如 下 。 
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可 以 看 到 图 中 阴影 发 生 了 变化 ,反映 出 原 假设 被 拒绝 ,变量 之 间 具 有 相关 性 。 统计 图 首先 按 
照 能 见 度 (vis ) 进行 划分 ， 如 果 能 见 度 为 nwo， 就 要 使 用 自动 着 陆 。 其 次 ， 按 照 误 差 ( error ) 
进行 模 向 划分 如 果 误 差 为 Ss 或 MM， 当 vis 为 no 时 ,就 要 使 用 自动 着 陆 , 其 他 情况 则 不 使 用 自动 
着 陆 。 这 个 图 中 不 需要 p 值 ， 因 为 深 灰 色 的 阴影 已 经 指示 得 很 明显 了 。 

你 还 可 以 使 用 prop .table () 函数 查看 比例 表 ， 将 它 作 为 Lable () 函数 的 包装 器 即 可 : 


> table(shuttles$suse, shuttle$stability) 











stab xstab 
auto 81 64 
noauto 47 64 
> prop.table(table(shuttles$suse, shuttles$stability)) 
stab xstab 


auto 0.3164062 0.2500000 
noauto 0.1835938 0.2500000 


如 果 忘 了 p 值 ， 进 行 一 次 卡 方 检验 也 很 容易 : 


> chisq.test(shuttles$use, shuttles$stability) 
Pearson's Chi-squared test with Yates' continuity 
correction 
data: shuttles$use and shuttlesstability 
X-squared = 4.0718, df = 1, p-value = 0.0436 
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神经 网 络 的 数据 准备 是 非常 重要 的 , 因为 所 有 协 变量 和 响应 变量 都 必须 是 数值 型 。 在 这 个 案 
例 中 ， 虽 然 所 有 变量 都 是 分 类 变量 ， 但 caret 包 可 以 帮助 我 们 快速 建立 虚拟 变量 作为 输入 特征 : 








> dummies <- dummyVars (use ~ .,shuttle, fullRank = T) 
> dummies 
Dummy Variable Object 
Formula: use ~ . 
7 variables, 7 factors 
Variables and levels will be separated by '.' 
A full rank encoding is used 


如 果 想 把 这 个 虚拟 变量 对 象 放 到 数据 框 中 , 需要 使 用 虚拟 变量 预测 现 有 数据 ( 自身 数据 或 其 
他 数据 )， 并 通过 as.data.frame 转 换 。 很 显然 ， 我 们 需要 预测 自身 数据 : 


> shuttle.2 = as.data.frame (predict (dummies, newdata=shuttle)) 











> names (shuttle.2) 


[1] "stability.xstab" "error.MM" "error.Sss" 
[4] "error .XL" "sign.pp" "wind.tail" 
[7] "magn.Medium" "magn.Out" "magn.Strong" 


[10] "vis.yes" 


> head(shuttle.2) 
stability.xstab error.MM error.SS error.XL sign.pp wind.tail 


得 下 0 0 0 1 0 

2 全 0 0 0 1 0 

3 1 0 0 0 1 0 

4 1 0 0 0 1 1 

S 1 0 0 0 1 1 

6 1 0 0 0 1 1 
magn.Medium magn.Out magn.Strong vis.yes 

1 0 0 0 0 

2 1 0 0 0 

3 0 0 1 0 

4 0 0 0 0 

5 1 0 0 0 

6 0 0 1 0 


现在 ， 我 们 得 到 具有 10 个 变量 的 输入 特征 空间 。 对 于 stability，0 表 示 stab，1 表 示 xstab。 
error 的 基准 是 LX， 用 3 个 变量 表示 其 他 分 类 。 


可 以 用 ifelse() 函数 建立 响应 变量 : 


























> shuttle.2$use <- ifelse(shuttles$suse == "auto", 1, 0) 
> table(shuttle.2$use) 
0 于 
111 145 


caret 包 还 可 以 生成 训练 数据 集 和 测试 数据 集 , 做 法 是 对 每 个 观测 赋 一 个 索引 标记 , 或 者 标记 
为 训练 数据 ， 或 者 标记 为 测试 数据 ， 然 后 依照 索引 进行 分 类 。 我 们 按 70/30 的 比例 划分 训练 数据 
和 测试 数据 ， 如 下 所 示 : 
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> set.seed(123) 
> trainIndex <- CreateDataPartition(shuttle.2$use，P = .7, list = 
FALSE) 








trainIndex 中 的 值 是 行 编 号 ， 在 上 面 的 代码 中 ， 是 数据 框 shuttle.2 中 占 总 数 70% 的 行 编号 。 这 
样 即 可 轻松 建立 训练 集 或 测试 集 : 

















> shuttleTrain <- Shutt1le.2[trainIndex，] 
> shuttleTest <- Shuttle.2[-trainIndex，] 





干 得 漂亮 ! 下 面 开 始 建立 神经 网 络 模型 。 


7.5 ”模型 构建 与 模型 评价 


前 面 提 到 过 ， 我 们 要 使 用 neuralnet 包 构建 模型 ， 其 中 建 模 函 数 使 用 的 公式 和 其 他 方法 一 样 ， 
例如 y~xi1+x2+x3 十 x4, data= df。 以 前 ， 我 们 使 用 y ~ 指定 数据 集中 除 响应 变量 之 外 的 所 有 变量 作 
为 输入 ， 但 neuralnet 中 不 允许 这 种 写法 。 绕 过 这 种 限制 的 方式 是 ， 使 用 as .formula () 函数 。 先 
建立 一 个 保存 变量 名 的 对 象 ， 然 后 用 这 个 对 象 作 为 输入 ， 从 而 将 变量 名 粘贴 到 公式 右 侧 : 

> n <- names(shuttleTrain) 

> form <- as.formula(paste("use ~", paste(n[!n %in% "use"], 

collapse = " + "))) 

> form 

use ~ stability.xstab + error.MM + error.SS + error.XL + sign.pp + 


wind.tail 
+ magn.Medium + magn.Oout + magn.Strong + vis.yes 


你 应 当 记 住 这 个 函数 的 功能 ， 因 为 使 用 起 来 实在 是 太 方便 了 。 在 nerualnet 包 中 ， 我 们 要 使 用 
的 函数 的 名 字 就 叫 作 nerualnet () 。 除 了 模型 公式 ， 还 有 4 个 关键 参数 需要 说 明 。 














呆 























口 hidqdqen: 每 层 中 隐藏 神经 元 的 数量 ， 最 多 可 以 设置 3 个 隐藏 层 ， 默 认 值 为 1。 

口 act .fct: 激活 函数 ， 默 认为 逻辑 斯 蒂 函 数 ， 也 可 以 设置 为 tanh 函 数 。 

D err.fct: 计算 误差 ， 默 认为 sse; 因为 我 们 处 理 的 是 二 值 结 果 变 量 ， 所 以 要 设置 成 ce， 
使 用 交叉 炳 。 

口 linear.output: 逻辑 参数 ， 控 制 是 否 忽略 act.fct， 默 认 值 为 TRUE; 对 于 我 们 的 数据 来 


说 ， 需 要 设置 为 FALSE。 


还 可 以 指定 算法 , 默认 算法 是 弹性 反 向 传播 。 我 们 就 使 用 这 种 算法 ,隐藏 神 经 元 也 一 样 , 使 
用 默认 值 1: 


































































































> fit <- neuralnet (form, data = shuttleTrain, err.fct = "ce", 
linear.output = FALSE) 


下 页 代码 是 整体 结果 : 
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> fits$result .matrix 


error 0.009928587504 
reached.threshold 0.009905188403 
steps 660.000000000000 
Intercept .to.1layhid1 -4.392654985479 
stability.xstab.to.1layhid1 1.957595172393 
error.MM.to.1llayhiqd1 -1.596634090134 
error.SS.to.1layhid1 -2.519372079568 
error.XL.to.1layhid1 -0.371734253789 
sign.pp.to.1layhiqd1 -0.863963659357 
wind.tail.to.1layhid1 0.102077456260 
magn.Medium.to.1layhid1 -0.018170137582 
magn.Out.to.1layhidqd1 1.886928834123 
magn.Strong.to.1layhidqd1 0.140129588700 
Vis.yes.to.1layhid1 6.209014123244 
Intercept.to.use 30.721652703205 
llayhid.1.to.use -65.084168998463 

















可 以 看 到 ， 误 差 非 常 低 ， 仅 为 0.0099。steps 的 值 是 算法 达到 阔 值 所 需 的 训练 次 数 ， 也 就 是 误 
差 函 数 的 偏 导 数 的 绝对 值 小 于 冰 值 (默认 为 0.1 ) 时 的 训练 次 数 。 权 重 最 高 的 神经 元 是 
vis.yes.to.1layhidl ， 权 重 值 为 6.21。 


还 可 以 看 看 所 谓 的 广义 权重 。 按照 heuralnet 包 开发 者 的 说 法 , 广义 权重 被 定义 为 第 ;个 协 变量 
对 对 数 发 生 比 的 贡献 : 

广义 权重 表示 每 个 协 变量 Xi 的 影响 ， 可 以 类 比 为 回归 模型 中 的 第 ;个 回归 系数 。 但 是 ,广义 权 
重 依赖 于 所 有 其 他 协 变量 。( Gunther and Fritsch，2010 )。 

















可 以 调 出 并 查看 广义 权重 。 我 对 输出 结果 进行 了 简化 , 只 列 出 开始 的 4 个 变量 和 6 
个 观测 。 请 注意 ,如果 你 把 每 一 行 的 数 都 相 加 , 会 得 到 一 个 相同 的 数值 ， 这 说 明 

9 这 种 权重 对 每 一 种 协 交 量 组 合 都 是 相等 的 ,请 注意 ,由 于 权重 随机 初始 化 的 原因 ， 
你 的 结果 会 有 一 些微 小 的 差别 。 


结果 如 下 : 


> head(fit$generalized.weights[[1]]) 

[,1] [,2] [,3] [,4] 
1 -4.374825405 3.568151106 5.630282059 0.8307501368 
2 -4.301565756 3.508399808 5.535998871 0.8168386187 
6 -5.466577583 4.458595039 7.035337605 1.0380665866 
9 -10.595727733 8.641980909 13.636415225 2.0120579565 
10 -10.270199330 8.376476707 13.217468969 1.9502422861 
11 -10.117466745 8.251906491 13.020906259 1.9212393878 
要 实现 神经 网 络 的 可 视 化 ， 只 需 使 用 plot () 函数 : 


> plot (fit) 


上 述 命令 输出 如 下 页 图 。 
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从 这 张 统 计 图 中 , 我们 可 以 知道 截 距 和 每 个 变量 的 权重 。 你 也 可 以 在 统计 图 中 查看 广义 权重 。 
下 面 看 看 vis.yes 和 wind.tail 的 广义 权重 图 , wind.tail 的 连接 权重 在 整体 上 处 于 较 低 的 位 置 。 请 注意 ， 
vis.yes 的 广义 权重 非常 不 对 称 ， 而 wind.tail 的 权重 则 分 布 得 非常 均匀 ， 说 明 这 个 变量 基本 不 具备 
预测 能 





> par(mfrow = c(1, 2)) 





























> gwplot (fit, selected.covariate = "vis.yes") 
> gwplot (fit, selected.covariate = "wind.tail") 
,不 从 人 大 作 
上 述 命令 输出 如 下 。 
Response: use Response: use 
口 1 3 | 
8 
| § wn |8 8 
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现在 看 看 模型 的 表现 如 何 , 可 以 通过 在 compute () 函数 中 指定 全 模型 和 协 变量 来 实现 , 语法 与 
在 测试 集 和 训练 集 上 进行 预测 是 一 样 的。 计算 完成 之 后 ， 通 过 $net.result 会 得 到 一 个 预测 值 列 表 : 























> resultsTrain <- compute(fit, shuttleTrain[, 1:10]) 
> predTrain <- resultsTrains$net.result 


上 面 得 到 的 结果 是 概率 的 形式 ， 所 以 要 将 结果 转换 成 0 或 1， 然 后 生成 混淆 矩阵 : 




















> predTrain <- ifelse(predTrain >= 0.5, 1, 0) 
> table(predTrain, shuttleTrains$use) 
predTrain 0 1 
081 0 
1 0 99 


天 哪 ， 神 经 网 络 模型 的 正确 率 达 到 了 100%1! 屏 住 呼吸 ， 看 看 它 在 测试 集 上 的 表现 : 





resultsTest <- compute(fit, shuttleTest[,1:10]) 
predTest <- resultsTest$net.result 

predTest <- ifelse(predTest >= 0.5, 1, 0) 
table(predTest, shuttleTest$use) 

predTest 0 1 

0 29 0 

1 1 46 


测试 集中 只 有 一 个 假 阳 性 的 误 预 测 。 如 果 你 想 找 出 这 是 哪个 观测 ， 可 以 使 用 which() 函数 : 


> which(predTest == 1 & shuttleTest$use == 0) 
[1] 62 


在 测试 集中 ， 是 第 62 行 ; 在 整个 数据 集中 ， 是 第 203 个 观测 。 
能 否 建 立 一 个 正确 率 达 到 100% 的 神经 网 络 模 型 ? 这 个 任务 就 交 给 你 了 


> 
> 
> 
































7.6 深度 学 习 示例 


让 我 们 结束 对 航天 飞机 的 研究 , 使 用 H20 包 完成 一 个 深度 学 习 的 实战 示例 。 我 们 要 使 用 的 数 
据 是 从 加 州 大 学 欧文 分 校 机 器 学 习 库 中 获取 的 , 我 对 这 份 数 据 进行 了 一 些 处 理 , 原始 数据 及 其 描 
述 参 见 https://archive.ics.uci.edu/ml/datasets/Bank+Marketing。 我 所 做 的 处 理工 作 包 括 下 载 小 数据 集 
bank.csv， 将 数值 型 变量 按 比例 缩放 为 均值 为 0、 方 差 为 !， 为 字符 型 变量 或 稀 跑 数值 型 变量 创建 
虚拟 变量 ， 并 删除 方差 基本 为 0 的 变量 。 这 份 数 据 可 以 在 github 上 找到 ， 地 址 为 https://github.com/ 
i ,数据 集 名 称 是 bank_DL.csv。 我 们 在 本 节 着 重 讨论 如 何 将 数据 加 载 到 H2O 平 台 
并 运行 深度 学 习 代 码 来 建立 一 个 分 类 器 ， 预 测 客户 是 否 会 对 一 场 营 销 活动 做 出 反应 。 





















































7.6.1 H20O 背景 介绍 


H2O 是 一 个 开源 的 预测 分 析 平 台 ， 它 有 很 多 预 置 算法 ， 比 如 K 最 近邻 、 梯 度 提升 机 和 深度 学 





140 第 7 章 神经 网 络 与 深度 学 习 





习 。 你 可 以 通过 Hadoop 、AWS 、Spark、SQL 、noSQL 或 自己 的 硬盘 将 数据 上 载 到 平台 。H2O 的 
一 个 巨大 优点 是 , 你 可 以 在 自己 的 本 地 计算 机 上 使 用 平台 上 的 大 多 数 机 器 学 习 算法 , 这些 算 法 是 
用 R 实 现 的 。 如 果 想 知道 更 多 细节 ， 请 访问 站 点 http://h20.ai/product/。 

在 R 中 安装 H20 的 过 程 有 些 与 众 不 同 。 我 在 下 面 提 供 了 安装 最 近 更 新 的 H2O0 版 本 ( 2017 年 2 


月 25 日 ) 的 代码 。 你 可 以 使 用 这 些 代 码 重新 安装 最 新 版 本 , 或 者 从 http://h20-release.s3.amazonaws. 
com/h2o/rel-lambert/5/docs-website/Ruser/Rinstall.html/ 下 载 。 以 下 就 是 安装 最 新 版 本 的 代码 : 























# The following two commands remove any previously installed H20 
packages for 
R. 

if ("package:h2o0" %in% search()) { detach("package:h2o", 
unload=TRUE) } 

if ("h2o" %in% rownames (installed.packages())) { 
remove.packages("h20") } 


# Next, we download packages that H20 depends on. 

if (! ("methods" %in% rownames(installed.packages()))) { 
install.packages ("methods") } 

if (! ("statmod" %in% rownames (installed.packages()))) { 
install.packages("statmod") } 

if (! ("stats" %in% rownames (installed.packages()))) { 
install.packages ("stats") } 

if (! ("graphics" %in% rownames (installed.packages()))) { 
install.packages ("graphics") } 

if (! ("RCurl" %in% rownames (installed.packages()))) { 
install.packages ("RCurl1") } 

if (! ("jsonlite" %in% rownames (installed.packages()))) { 
install.packages ("jsonlite") } 

if (! ("tools" %in% rownames(installed.packages()))) { 
install.packages ("tools") } 

if (! ("utils" %in% rownames(installed.packages()))) { 
install.packages ("utils") } 


# Now we download, install and initialize the H20 package for R. 


install.packages("h2o0", type="source", repos=(c("http://h2o0release. 
S3 .amazonaws .com/h20/rel-tverberg/5/R"))) 


7.6.2 ”将 数据 上 载 到 H2O 平台 


假设 我 们 已 经 将 bank_DL.csv 文 件 保存 到 工作 目录 。 请 记 住 ，getwa() 函数 会 返回 工作 目录 
的 路 径 。 所 以 ,下面 可 以 加 载 程序 库 并 创建 一 个 对 象 ， 保 存 数据 文件 的 路 径 : 





> library (h20) 
> path <- "C:/.../bank DL.csv" 


现在 可 以 连接 到 H20O 平 台 ， 并 在 集群 上 启动 一 个 实例 。 设 置 参数 nthreadqs = -1， 使 实例 
可 以 使 用 集群 上 的 所 有 CPU: 
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数 也 


构 的 函 


> localH20 = h2o.init (nthreads = -1) 


利用 H20 函 数 hn2o.uploadFile(), 可 以 将 你 的 文件 上 载 (导入 ) 到 H2O 云 平台 。 下 面 的 函 
可 以 供 你 上 载 内 容 : 





D h2o0.importFolder 
口 h2o .importURL 





DQ h20.importHDFS 


上 传 文件 的 过 程 非常 简单 ， 函 数 会 给 出 一 个 表示 百分比 的 进度 条 来 跟踪 上 传 状态 : 


> bank <- h20.uploadFile(path = path) 


上 传 的 数据 被 保存 在 H2OFrame 中 ， 你 可 以 通过 class () 函数 检查 ， 如 下 所 示 : 


> class (bank) 
[1] "H20Frame" 


在 H2O 平 台中 ， 很 多 R 函 数 的 输出 和 我 们 以 前 用 过 的 函数 不 一 样 。 比 如 ， 看 一 下 表示 数据 结 
数 〈 我 省 略 了 一 些 笨 出 ): 


> str(bank) 

Class 'H20Frame' <environment : 0x0000000032d02e80> 
- attr(*, "op")= chr "Parse" 

attr(*, "id")= chr "bank DL sid 95ad 2" 

attr(*, "eval")= logi FALSE 

attr(*, "nrow")= int 4521 

attr(*, "ncol")= int 64 

attr(*, "types")=List of 64 


可 以 看 到 ,有 4521 个 观测 (nrow ) 和 64 列 (ncol )。 顺便 说 一 下 ,head () 函数 和 summary () 
还 和 以 前 完全 一 样 。 划 分 数据 集 之 前 ， 看 看 响应 变量 的 分 布 ， 就 是 名 称 为 y 的 那 一 列 : 
> h2o0.table (banks$y) 
YY Count 
1 no 4000 


2 yes 521 
[2 rows x 2 columns] 


可 以 看 到 ， 有 521 名 客户 对 银行 的 营销 活动 给 从 出 了 是 ”的 反应 ， 另 外 4000 名 客户 的 反应 则 





























是 “和 否 "。 这 个 响应 变量 有 点 不 平衡 。 后 面 讲解 多 类 学 习 时 ， 我 们 会 i 从 用 于 处 理 不 平衡 的 标号 


是 
响应 变 
7.6. 


随机 





变量 的 技术 。 在 这 次 练习 中 ， 我 们 看 看 深度 学 习 技术 在 这 种 标号 不 平衡 的 情况 下 表现 如 何 。 


3 ”建立 训练 数据 集 和 测试 数据 集 


可 以 利用 H2O 平 台 内 置 的 函数 将 数据 划分 为 训练 集 和 测试 集 。 首先 要 为 数据 建立 一 个 统一 的 
数 向 量 : 
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> rand <- h20.runif (bank, seed = 123) 


然后 即 可 划分 数据 ， 并 将 数据 分 配给 相应 的 对 象 。 此 时 需要 指定 关键 字 key 的 值 ， 如 下 所 示 : 








> train <- bank[rand <= 0.7, ] 


> train <- h2o0.assign(train, key = "train") 
> test <- bank[rand > 0.7, ] 
> test <- h20.assign(test, key = "test") 




















建立 训练 集 和 测试 集 之 后 , 应 该 看 看 二 者 之 间 的 响应 变量 分 布 是 否 均衡 。 可 以 使 用 h2o.table () 
函数 完成 这 个 任务 ， 在 我 们 的 例子 中 ， 响 应 变量 在 第 64 列 : 


> h20.table(train[, 64]) 
y Count 

1 no 2783 

2 yes 396 

[2 rows x 2 columns] 











> h20.table(test[, 64]) 
yY Count 

1 no 1217 

2 yes 125 

[2 rows x 2 columns] 


一 切 都 进行 得 相当 顺利 ， 下 面 开 始 构建 模型 。 


7.6.4 “模型 构建 


我 们 将 会 看 到 ,在 深度 学 习 的 建 模 函 数 中 ， 需 要 调 优 的 参数 非常 少 。 对 于 这 个 平台 , 我 最 喜 
欢 的 一 点 就 是 它 使 建 模 过 程 尽 可 能 简单 ,只 要 按照 默认 设置 去 做 即 可 。 如 果 你 想 知 道 所 有 默认 设 
置 的 作用 ， 可 以 查看 帮助 文件 ， 也 可 以 使 用 下 面 的 命令 : 






































> args (h2o .deeplearning) 


可 以 在 线 查看 对 所 有 参数 和 参数 调 优 方式 的 说 明文 档 , 网 址 为 http://h20.ai/docs/master/model/ 


deep-learning/。 

顺便 说 一 句 ， 你 可 以 通过 aemo ( "methodq" ) 函数 运行 各 种 机 器 学 习 方法 的 演示 程序 。 例 如 ， 
可 以 通过 demo (h2o.dqeeplearning) 查 看 深度 学 习 方 法 的 演示 。 

下 一 个 目标 是 ,使 用 随机 搜索 的 方法 调整 超 参数 ， 这 种 方法 比 全 网 格 搜索 要 节省 时 间 。 我 们 
要 检查 的 超 参数 有 : 有 舍弃 ( dropout ) 和 无 舍弃 的 tanh 激 活 函数 、3 种 不 同形 式 的 隐藏 层 ( 神 
经 元 组 合 )、 两 种 不 同 的 舍弃 率 ， 以 及 两 种 不 同 的 学 习 率 。 
































> hyper params <- 1ist( 
activation = c("Tanh", "TanhWithDropout"), 
hidden = list(c(20,20),c(30, 30),c(30, 30, 30)), 
input dropout ratio = c(0, 0.05), 
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rate = c(0.01, 0.25) 
) 


你 可 以 将 随机 搜索 原则 设置 在 一 个 列表 里 。 因 为 我 们 要 使 用 随机 搜索 , 所 以 要 将 strategy 设 置 
tie 如 果 要 进行 全 网 格 搜索 ， 就 要 设置 为 Cartesian。 我 建议 你 为 随机 搜索 设置 一 
个 或 多 个 提前 结束 标准 , 比如 max_runtime_secs、max_models 等 。 我 还 设置 了 一 个 结束 标准 ， 
即 前 5 个 模 开 之 间 的 误差 在 1% 以 内 : 











> search criteria = list( 
strategy = "RandomDiscrete", max runtime secs = 420, 
max models = 100, seed = 123, stopping rounds = 5, 


Stopping tolerance = 0.01 
) 


下 面 就 是 hn2o.grid() 函数 大 显 身手 的 时 候 了 。 我 们 需要 告诉 这 个 函数 使 用 次 度 学 习 算 法 ， 
还 有 要 使 用 的 训练 数据 集 、 验 证 数据 (测试 数据 集 )、 输 入 特征 和 响应 变量 


> randomSearch <- h2o.grid( 
algorithm = "deeplearning", 
griqd id = "randomSearch", 
training frame = train, 
validation frame = test, 
x = 1:63, 
Y = 64, 
epochs = 1， 
Stopping metric = "misclassification", 
hyper params = hyper params, 
search criteria = search criteria 























有 一 个 进度 条 会 表示 函数 运行 的 进程 ， 对 于 这 个 数据 集 ， 运 行 时 间 不 过 几 秒 。 
检查 一 下 效果 最 好 的 前 5 个 模型 的 结果 : 








> grid <- h20.getGrid("randomSearch",sort by = "auc", decreasing = 
FALSE) 


> grid 
H20 Grid Details 


Grid ID: randomSearch 
Used hyper parameters: 

- activation 

- hidden 

- input dropout_ ratio 

~ 
Number of models: 71 
Number of failed models: 0 
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Hyper-Parameter Search Summary: ordered by decreasing auc 


activation hidden input dropout ratio rate 
1 TanhWithDropout [30, 30, 30] 0.05 0.25 
2 TanhWithDropout [20, 20] 0.05 0.01 
3 TanhWithDropout [30, 30, 30] 0.05 0.25 
4 TanhWithDropout [40, 40] 0.05 0.01 
5 TanhWithDropout [30, 30, 30] 0.0 0.25 
model_ids auc 
1 randomSearch model 57 0.8636778964667214 
2 randomSearch model 8 0.8623894823336072 
3 randomSearch model 10 0.856568611339359 
4 randomSearch model 39 0.8565258833196385 
5 randomSearch model 3 0.8544026294165982 








所 以 ， 第 $7 号 模型 最 终 胜 出 ， 它 使 用 有 舍弃 的 tanh 激 活 函 数 、3 个 隐藏 层 ( 每 个 隐藏 层 中 有 
30 个 神经 元 )、0.05 的 舍弃 率 和 0.25 的 学 习 率 ， 其 AUC 大 概 是 0.864。 


下 面 通过 混淆 和 矩阵 查 看 模型 在 测试 数据 上 的 错误 率 : 


> best model <- h20.getModel(grid@model ids[[1]]) 

> h20.confusionMatrix(best model, valid = T) 

Confusion Matrix (vertical: actual; across: predicted) for max f1 @ 
threshold = 0.0953170555399435: 


























no yes Error Rate 
no 1128 89 0.073131 = 89/1217 
yes 60 65 0.480000 = 60/125 


Totals 1188 154 0.111028 = 149/1342 


尽管 错误 率 只 有 11%, 但 yes 标 签 上 的 错误 太 多 了 , 它 的 假 阳性 率 和 假 阴性 率 都 非常 高 。 这 说 
明 不 平衡 的 分 类 可 能 是 一 个 问题 。 我 们 刚刚 开始 调整 超 参数 的 过 程 , 想 改善 模型 结果 还 有 很 多 工 
作 要 做 。 这 个 任务 就 交 给 你 了 1! 


下 面 研究 如 何 使 用 交叉 验证 建立 模型 。 请 注意 超 参数 是 如 何 包含 在 h2o.deeplearning () 
函数 中 的 , 只 有 学 习 率 是 个 例外 , 它 被 设置 为 自 适应 的 。 我 还 加 入 了 对 少数 类 进行 上 采样 的 设置 ， 
以 使 训练 过 程 中 的 标号 更 加 平衡 。 另 一 个 需要 注意 的 是 , 每 折 数 据 都 是 根据 响应 变量 进行 分 层 抽 
样 得 出 的 : 


















































> dlmodel <- h2o.deeplearning( 
x = 1:63, 
Y = 64, 
training frame = train, 
hidden = c(30, 30, 30), 
epochs = 3, 
nfolds = 5, 


fold assignment = "Stratified", 
balance classes = T, 
activation = "TanhWithDropout", 


seed = 123, 
adaptive rate = F, 
input_ dropout _ ratio = 0.05, 
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Stopping metric = 


variable importances = T 


) 


"misclassification", 


如 有 果 调 用 了 dlmodel 对 象 ， 就 会 得 到 一 个 非常 长 的 输出 结果 。 在 这 个 例子 中 ,我们 只 检查 模 








型 在 保留 折 上 的 效果 : 


> dlmodel 
Model Details: 


AUC: 0.8571054599 


Gini: 0.7142109198 


Confusion Matrix 


threshold: 
no yes 
no 2492 291 
yes 160 236 


Totals 2652 527 


(vertical: actual; across: predicted) for F1—optimal 


Error Rate 
0.104563 = 291/2783 
0.404040 = 160/396 
0.141869 = 451/3179 


从 这 个 结果 可 以 看 出 , 对 超 参数 的 调整 任 重 而 道 远 , 特别 是 对 隐藏 层 数 ( 神经 元 数 ) 的 调整 。 





对 模型 在 样本 外 数据 上 的 效果 的 检查 过 程 和 前 面 有 些 


函数 : 
> perf <- h20.performance(dlmodel, test) 
> perf 
H20BinomialMetrics: deeplearning 
MSE: 0.07237450145 
RMSE: 0.2690250945 
LogLoss: 0.2399027004 
Mean Per-Class Error: 0.2326113394 
AUC: 0.8319605588 
Gini: 0.6639211175 


Confusion Matrix 
optimal 
threshold: 
no yes 
no 1050 167 
yes 41 84 
Totals 1091 251 


Maximum Metrics: 
metric 

max £1 

max £2 

max f0point5 
max accuracy 
max precision 
max recall 


ovaaum 必 wb 


max Specificity 
max absolute mcc 


























区 别 , 但 更 全 面 , 使 用 的 是 hn2o.perfor mance 








(vertical: actual; across: predicted) for F1- 


Brreor Rate 
0.137223 = 167/1217 
0.328000 41/125 
0.154993 = 208/1342 


Maximum metrics at their 


threshold 

0.323529 
.297121 
.323529 
.342544 
.323529 
.013764 
.342544 
.297121 


P= 


respective thresholds 
value idx 


.446809 62 
.612245 166 
.372011 62 
.906110 0 
.334661 62 
.000000 355 
.999178 0 
.411468 166 
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9 max min per class accuracy 


0.313356 0.799507 131 


10 max mean per class accuracy 0.285007 0.819730 176 
整体 错误 率 提 高 了 ， 但 假 阳性 率 和 假 阴 性 率 有 所 下 降 。 如 前 所 述 ， 需 要 更 多 调 优 工作 。 


最 后 ,可 以 计算 变量 重要 性 ,该 操作 基于 总 登 方 法 。 请 注意 ,这 
变量 重要 性 会 受到 抽样 变动 的 影响 。 如 果 你 换 一 

















中 , 我 们 看 到 变量 是 按照 重要 性 顺序 排列 的 , 但 
个 随机 数 种 子 ， 变 量 重要 性 的 顺序 也 很 可 能 发 生 改 变 。 以 下 是 按 重 要 性 排列 的 前 5 








> dlmodel@models$svariable importances 


Variable Importances: 








variable relative importance scaled importance percentage 


1 duration 1. 
2 poutcome success 0 
3 month oct 0 
4 month mar 0. 
5 poutcome failure 0 


000000 


.806309 
.329299 


223847 


.199272 


1 





000000 


0.806309 
0.329299 
0. 

0.199272 


223847 


0. 
0.118532 
0. 
0 
0 


147006 


048409 


.032907 
.029294 


些 结果 可 能 会 误导 你 。 在 表 


< 
个 变量 : 


综 上 ,借助 于 H2O 平 台 的 功能 ， 我 们 介绍 了 如 何 使 用 R 进 行 深度 学 习 。H20O 平 台 既 简单 易 用 
又 非常 灵活 ， 你 可 以 调整 超 参数 ， 从 而 得 到 最 优 的 模型 拟 合 。 好 好 利用 它 吧 ! 


7.7 小结 














本 章 目的 在 于 , 带领 你 进入 神经 网 络 和 深度 学 习 的 奇妙 世界 。 我们 通过 神经 网 络 在 两 个 不 同 
数据 集 上 的 实际 应 用 , 研究 了 其 工作 原理 和 优 缺 点 。 数 据 中 存在 错综复杂 的 非 线 性 关系 时 ， 这 种 








技术 的 效果 非常 好 。 但 这 种 技术 具有 高 度 的 复杂 怕 








FE， 可 能 要 调整 很 多 超 参 数 ， 是 个 典型 的 黑 盒 ， 


非常 难以 解释 。 我 们 不 知道 为 什么 自动 苞 驶 汽车 会 在 遇 到 红 灯 时 向 右 转 , 只 知道 它 做 得 非常 妥当 。 














我 希望 你 能 充分 利用 这 种 技术 ， 或 者 独 立 使 用 ， 或 者 以 集成 建 模 的 方式 使 用 其 他 技术 作为 补充 。 
视 你 好 运 且 收获 多 多 ! 下 面 转 和 人 对 无 监督 学 习 的 研究 ， 从 聚 类 开始 。 


第 8 章 


涌 类 分 析 








“ 快 给 我 一 杯 酒 ， 把 我 的 思想 淋 湿 ， 我 就 能 说 出 名 言 人 警句 了 。” 
一 一 阿里 斯 托 芬 ， 雅 典 剧 作 家 


在 前 面 的 章节 中 ,我 们 的 重点 在 于 使 用 最 优 算 法 找 出 一 个 结果 或 响应 , 例如 一 套 乳 腺 癌 诊 
断 方 法 或 一 个 前 列 腺 特异 性 抗原 水 平 。 这 些 案 例 中 有 一 个 响应 变量 Y, Y 是 X 的 函数 , 或 表示 为 
y= 二 ftx)。 我 们 的 数据 中 有 Y 的 实际 值 ， 以 Y 为 依据 训练 X。 这 种 方式 称 为 监督 式 学 习 。 但是, 我 
们 从 数据 中 学 习 知 识 的 时 候 通常 没有 响应 变量 Y， 或 者 故意 忽略 了 Y。 此 时 就 进入 无 监督 学 习 
的 世界 。 在 这 个 世界 里 ， 我 们 建立 和 选择 算法 的 基准 是 算法 能 够 明确 满足 业务 需求 的 程度 ， 而 
不 是 算法 的 正确 率 。 


为 什么 要 研究 无 监督 学 习 ? 首先 , 无 监督 学 习 可 以 帮助 你 理解 并 识别 出 数据 中 的 模式 ， 这 可 
能 非常 有 价值 。 其 次 ， 你 可 以 通过 无 监督 学 习 转 换 数 据 ， 提 高 监督 式 学 习 技术 的 效果 。 


本 章 着 重 讨论 如 何 识 别 数据 中 的 模式 ， 下 一 童 讨论 数据 转换 的 问题 。 


那么 ,我们 就 从 一 种 广为人知 而 又 功能 强大 的 技术 开始 一 一 涌 类 分 析 。 聚 类 分 析 的 目标 是 将 
观测 分 成 若干 组 (个 组 ), 使 同一 组 内 的 成 员 尽 可 能 相似 ,不 同 组 间 的 成 员 尽 可 能 不 同 。 聚 类 分 
析 有 很 多 实际 应 用 ， 下 面 仅 是 其 中 的 一 部 分 例子 : 


口 客户 分 类 与 市 场 细 分 
口 高 犯罪 率 地 理 区 域 检测 
口 图 像 与 人 脸 识别 
口 基因 测序 与 转录 
口 石油 与 地 质 勘 探 
聚 类 分 析 用 途 广 泛 ， 聚 类 技术 也 林林总总 。 我 们 将 重点 讨论 两 种 最 常用 的 技术 : 层次 聚 类 和 
K 均 值 聚 类 。 它 们 都 是 非常 有 效 的 聚 类 方法 ， 但 如 果 你 要 分 析 的 是 大 规模 的 高 复杂 度 的 数据 集 ， 
它们 可 能 不 太 适 合 。 所 以 ,我们 还 要 研究 围绕 中 心 点 的 划分 , 它 使 用 基于 果 瓦 度量 的 相 异 度 和 矩阵 
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作为 输入 。 最 后 讨论 一 种 我 最 近 才学 习 和 使 用 的 新 技术 一 一 使 用 随机 森林 转换 数据 。 转 换 后 的 数 
据 可 以 用 作 无 监督 学 习 的 输入 。 


开始 本 章 内 容 之 前 , 我 们 先 来 看 一 条 评论 。 你 可 能 会 被 问 到 这 个 问题 : 既然 学 习 是 非 监督 式 
的 , 那么 这 些 技术 是 不 是 更 接近 于 艺术 ,而 不 是 科学 ?我 认为 明确 的 回答 是 “看 情况 ”"。2016 年 初 ， 
印第安 纳 州 印第安 纳 波 利 斯 市 举行 了 一 个 R 用 户 小 组 会 议 ， 在 这 个 会 议 上 , 我 介绍 了 本 书 中 的 一 些 
方法 。 与 会 的 所 有 人 都 赞成 这 个 观点 : 正 是 分 析 师 和 商业 用 户 的 判断 才 使 得 无 监督 学 习 具 有 实际 意 
义 ， 并 且 能 够 决定 在 最 终 的 算法 中 保留 3 个 艇 还 是 4 个 徐 。 下 面 引 用 的 评论 很 好 地 总 结 了 这 一 点 : 

“主要 障碍 在 于 ， 不 考虑 前 因 后 果 的 时 候 ， 很 难 对 聚 类 算法 进行 评价 。 为 什么 用 户 
从 一 开始 就 聚集 数据 ? 他 们 聚集 数据 之 后 打算 干什么 ? 我 们 坚信 聚 类 不 应 该 被 看 作 与 
应 用 无 关 的 数学 问题 ， 而 应 该 一 直 在 其 最 终 用 途 的 背景 下 展开 研究 。” 










































































一 一 拉克 斯 伯 格 等 (2012 ) 


8.1 层次 聚 类 


层次 聚 类 算法 的 基础 是 观测 之 间 的 相 异 度 测量 。 我 们 使 用 的 是 通用 的 测量 方式 一 一 欧 氏 距 
离 ， 当 然 还 有 其 他 方式 。 




















层次 聚 类 是 一 种 凝聚 式 的 或 自 底 向 上 的 技术 。 首先 , 所 有 观测 都 是 自己 本 身 的 一 

0 个 徐 ; 然后 ,算法 开始 在 所 有 的 两 点 组 合 之 中 进行 迭代 搜索 ， 找 出 最 相似 的 两 个 
答 ， 将 它们 聚集 成 一 个 答 。 所 以 ， 第 一 次 迭代 之 后 ， 有 1 -1 个 禾 ; 第 二 次 迭代 
之 后 ， 有 n 一 2 个 狂 ， 依 此 类 推 。 


进行 迭代 时 ,除了 距离 测量 之 外 , 还 有 一 个 重要 问题 是 需要 确定 观测 组 之 间 的 测 距 方式 , 不 
同类 型 的 数据 集 需 要 使 用 不 同 的 簇 间 测 距 方 式 。 当 你 使 用 不 同 的 测 距 方式 进行 实验 时 , 会 发 现 有 
些 测 距 方 式 会 使 一 个 或 儿 个 簇 中 的 观测 数量 特别 不 均衡 。 假设 你 有 30 个 观测 , 某 种 技术 可 能 会 一 
直 建 立 只 有 一 个 观测 的 徐 , 而 不 管 你 想 建立 多 少 个 。 在 这 种 情况 下 ,你 必须 根据 业务 和 数据 的 实 
际 情况 做 出 具体 的 判断 ， 选 择 最 合适 的 测 距 方式 。 















































下 表 列 出 了 常用 的 测 距 方式 类 型 ， 当 然 还 有 其 他 类 型 的 测 距 方 式 。 
测 距 方式 描述 
Ward 距 离 使 总 的 簇 内 方差 最 小 ， 使 用 艇 中 的 点 到 质心 的 误差 平方 和 作为 测量 方式 
最 大 距离 ( Complete linkage ) 两 个 马 之 间 的 距离 就 是 两 个 艇 中 的 观测 之 间 的 最 大 距离 
最 小 距离 ( Single linkage ) 两 个 饼 之 间 的 距离 就 是 两 个 艇 中 的 观测 之 间 的 最 小 距离 
平均 距离 ( Average linkage ) 两 个 饼 之 间 的 距离 就 是 两 个 艇 中 的 观测 之 间 的 平均 距离 
质心 距离 (Centroid linkage ) 两 个 挨 之 间 的 距离 就 是 两 个 人 能 的 质心 之 间 的 距离 
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层次 聚 类 的 输出 是 一 种 树 状 图 ， 可 以 显示 不 同 簇 之 间 的 排列 关系 。 


我 们 将 会 看 到 , 选择 簇 的 数目 时 很 难 找到 一 个 明确 的 平衡 点 。 你 的 决策 从 本 质 上 说 是 一 个 迭 
代 的 过 程 ， 而 且 要 侧重 于 业务 决策 这 个 大 背景 。 


距离 的 计算 


我 们 之 前 提 到 过 , 层次 聚 类 一 般 使 用 欧 氏 距离 作为 输入 。 下 面 通过 一 个 简单 的 例子 看 看 如 何 
计算 两 个 观测 之 间 的 欧 氏 距离 ， 这 两 个 观测 都 具有 两 个 变量 〈 特征 )。 


假设 观测 A 的 价格 为 美元， 重量 为 3 磅 ; 观测 B 的 价格 为 3 美元 ， 重 量 为 3 磅 。 将 这 些 值 代 人 
距离 公式 : A 和 B 之 间 的 距离 等 于 它们 的 特征 的 差 的 平方 和 的 平方 根 。 在 本 例 中 计算 如 下 : 


d(A, B) = 平方 根 ((5 -3) + (3 一 5))=2.83 


2.83 这 个 值 本 身 没有 什么 意义 ,在 与 其 他 两 点 之 间距 离 相 比 时 才 有 意义 。 这 就 是 R 中 的 
Gist () 函数 计算 距离 的 默认 方式 。 你 可 以 在 这 个 函数 中 指定 其 他 距离 计算 方式 ( 如 最 大 值 距离 、 
曼哈顿 距离 、 堪 培 拉 距 离 、 二 值 距离 和 闵可夫 斯 基 距 离 ), 我 们 不 详细 讨论 你 应 该 在 何 种 情况 下 ， 
或 基于 何 种 原因 使 用 这 些 距离 ， 以 代替 欧 氏 距离 ， 这 大 专业 了 。 举 例 来 说 ， 你 的 数据 受到 维度 
过 高 的 影响 时 ， 欧 氏 距离 就 不 适合 了 ， 比 如 基因 组 研究 。 你 需要 使 用 专业 领域 知识 和 反复 实验 
来 确定 合适 的 距离 测量 方式 。 















































最 后 需要 注意 的 是 ， 要 对 你 的 数据 进行 标准 化 的 缩放 操作 ， 使 数据 的 均值 为 0， 
gi 标准 差 为 1， 这 样 在 计算 距离 时 才能 进行 比较 。 否 则 ， 变 量 的 测量 值 越 大 ， 对 距 
离 的 影响 就 越 大 。 


8.2 KK 均值 聚 类 


使 用 K 均 值 罕 类 时 ,需要 明确 指定 所 需 的 簇 的 数目 ， 然 后 算法 开始 迭代 ， 直 到 每 个 观测 都 属 
于 某 个 簇 。 算 法 的 目标 是 使 簇 内 的 差异 最 小 ， 簇 内 差异 由 欧 氏 距离 的 平方 定义 。 所 以 ， 第 k 个 入 
的 簇 内 差异 等 于 簇 内 所 有 两 个 观测 之 间 的 欧 氏 距离 的 平方 和 ， 再 除 以 簇 内 观测 的 数量 。 


因为 迭代 过 程 的 存在 ,一 次 K 均 值 聚 类 的 结果 可 能 和 另 一 次 的 结果 大 相 径 庭 一 一 尽管 你 指定 
了 同样 数目 的 徐 。 看 看 这 是 如 何 发 生 的 。 


(1) 设 定 : 你 需要 的 艇 的 确切 数量 ()。 

(2) 初始 化 : 随机 选择 k 个 观测 作为 初始 均值 。 

(3) 迭代: 
ms 将 每 个 观测 分 配给 离 它 最 近 的 簇 中 心 点 (使 簇 内 平方 和 最 小 )， 建 立 k 个 艇 ; 
ms 将 每 个 徐 的 中 心 点 作为 新 的 均值 ; 
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m 重复 上 面 两 个 步 台 ,直至 收敛 ， 即 簇 中 心 点 不 再 改变 。 


可 以 看 出 ， 因 为 第 1 步 中 的 初始 分 配 是 随机 的 ,所 以 会 造成 每 次 聚 类 结果 不 一 致 。 因 此 , 重要 
的 一 点 是 ， 要 进行 多 次 初始 分 配 ， 让 软件 找 出 最 优 的 解 。 在 R 中 ， 你 可 以 看 到 这 个 过 程 非常 容易 。 





























8.3 果 瓦 系数 与 围绕 中 心 的 划分 


你 开始 实际 的 聚 类 分 析 时 ， 很 快 就 会 遇 到 一 个 问题 : 无 论 层 次 聚 类 还 是 K 均 值 聚 类 ， 都 不 是 
为 分 析 混合 数据 而 专门 设计 的 。 什 么 是 混合 数据 呢 ? 就 是 既 包 括 定量 数据 又 包括 定性 数据 的 数 
据 ， 说 得 更 具体 一 些 ， 就 是 包括 名 义 数据 、 定 序数 据 、 定 距 数 据 和 定 比 数据 。 


现实 情况 就 是 , 你 使 用 的 大 多 数 数据 集 都 包括 混合 数据 。 有 很 多 方式 可 以 处 理 混合 数据 ， 比 
如 可 以 先进 行 主 成 分 分 析 (第 9 童 )， 建 立 潜 变量 ， 然 后 使 用 潜 变 量 作为 聚 类 的 输入 ,还 可 以 使 用 
不 同 的 相 异 度 计算 方式 。 


在 简单 易 用 而 又 功能 强大 的 R 中 ， 你 可 以 使 用 果 瓦 相 异 度 系 数 将 混合 数据 转换 为 适当 的 特征 
空间 。 在 这 种 方法 中 ,你 甚至 可 以 使 用 因子 作为 输入 变量 。 还 有 ， 在 聚 类 算法 方面 ， 我 推荐 使 用 
PAM 聚 类 算法 ， 而 不 是 K 均 值 。 


PAM 和 K 均 值 很 相似 ,但 是 有 两 个 明显 的 优点 : 


口 第 一 ，PAM 可 以 接受 相 异 度 和 矩阵 作为 输入 ， 这 样 即 可 处 理 混 合 数据 ; 
口 第 二 ，PAM 对 于 异常 值 和 不 对 称 数据 的 鲁 棒 性 更 好 ， 因 为 它 最 小 化 的 是 相 异 度 总 和 ， 而 
不 是 欧 氏 距离 的 平方 和 (Reynolds，1992 )。 


这 并 不 是 说 必须 同时 使 用 果 瓦 系数 和 PAM, 如 果 你 愿意 , 完全 可 以 在 层次 聚 类 方法 中 使 用 果 
瓦 系数 。 对 于 K 均 值 方 法 ,我 也 见 到 过 对 果 瓦 系数 的 意见 ， 赞 成 和 反对 都 有 。 除 此 以 外 ，PAM 还 
能 接受 其 他 测 距 方式 。 PAM 和 果 瓦 系数 构成 了 处 理 混合 数据 的 一 套 有 效 方法 。 我 们 先 简 单 介绍 这 
两 个 概念 ， 然 后 讨论 其 他 内 容 。 















































































































































8.3.1 果 瓦 系数 


果 瓦 系数 比较 两 个 成 对 的 实例 , 并 计算 它们 之 间 的 相 异 度 , 实质 上 就 是 每 个 变量 的 贡献 的 加 
权 平 均值 。 对 于 两 个 实例 i 与 j， 果 瓦 系数 定义 如 下 : 


Si 二 sum(Wijx Si / sum(Wix) 


其 中 ，Si 是 第 k 个 变量 的 贡献 。 如 果 第 k 个 变量 是 有 效 的 ，Wii 是 1， 否 则 是 0。 










































































对 于 定 序 变量 和 连续 变量 ，Si = 1 -Gxi -x 的 绝对 值 )re，ni 是 第 k 个 变量 的 取 值 范围 。 
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对 于 名 义 变 量 ， 如 果 xij=xx， 那 么 Siy= 1， 否 则 为 0。 
对 于 二 值 变 量 ，Six 是 基于 具有 (+) 或 不 具有 (一 ) 某 个 属性 来 计算 的 ， 如 下 表 所 示 。 



































变 量 第 Kk 个 属性 的 值 
实例 i 出 十 - - 
实例 j + 二 + = 
Si 1 0 0 0 
Wi 1 1 1 0 
8.3.2 PAM 


对 于 围绕 中 心 点 的 划分 ， 我 们 先 定义 中 心 点 。 


中 心 点 是 答 内 所 有 观测 中 , 使 相 异 度 (使 用 果 拟 系数 表示 ) 最 小 的 那个 观测 。 所 
以 ， 同 区 均值 一 样 ， 如 果 指 定 5 个 化 ， 就 可 以 将 数据 划分 为 5 份 。 


PAM 算 法 的 目标 是 , 使 所 有 观测 与 离 它们 最 近 的 中 心 点 的 相 异 度 最 小 。 该 算法 按照 下 面 的 步 
又 迭代 : 


(1) 随机 选择 个 观测 作为 初始 中 心 点 ; 

(2) 将 每 个 观测 分 配 至 最 近 的 中 心 点 ; 

(3) 用 非 中 心 点 观测 替换 中 心 点 ， 并 计算 相 异 度 的 变化 ; 
(4) 选择 能 使 总 相 异 度 最 小 的 配置 ; 

(5) 重复 第 (2) 步 ~ 第 (4) 步 ， 直 至 中 心 点 不 再 变化 。 


果 瓦 系数 和 PAM 都 可 以 使 用 R 中 的 cluster 包 实现 。 使 用 aaisy () 函数 计算 相 异 度 和 矩阵 ， 从 而 
计算 果 瓦 系数 ， 然 后 使 用 pam( ) 函数 进行 实际 的 数据 划分 。 下 面 开始 实验 这 些 方法 。 





























8.4 ”随机 森林 


出 于 和 使 用 果 瓦 度量 处 理 混合 ( 说 实话 ,是 混乱 的 ) 数据 同样 的 考虑 ,也 可 以 以 非 监督 的 方 
式 使 用 随机 森林 。 选 择 这 种 方法 有 以 下 优点 : 


口 对 异常 值 和 高 度 扭曲 的 变量 的 鲁 棒 性 更 好 ; 

口 不 需要 对 数据 进行 转换 和 比例 缩放 ; 

口 可 以 处 理 混合 数据 ( 数值 型 和 因子 ); 

口 可 以 兼容 缺失 值 ; 

D 可 以 在 有 大 量变 量 的 数据 上 使 用 ， 实 际 上 ， 通 过 检查 变量 重要 性 ， 可 以 消除 那些 无 用 的 


特征 ; 
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口 生成 的 相 异 度 和 矩阵 可 以 作为 我 们 前 面 讨论 过 的 一 些 技术 的 输入 (层次 聚 类 、K 均 值 聚 类 和 
PAM )。 
我 要 给 出 一 些 忠告 。 这 种 方法 会 经 过 多 次 试 错 来 对 随机 森林 进行 调 优 ,比如 需要 不 断 调 整 每 
次 树 分 裂 时 变量 抽样 的 数目 ( 函数 里 参数 mtry 的 值 )， 以 及 森林 中 树 的 数目 。 研 究 表明 ， 在 一 定 
程度 上 , 树 的 数目 越 多 ,结果 就 越 好 ，2000 棵 树 是 一 个 很 好 的 起 点 ( Shi,T. 与 Horvath, S.，2006 )。 
以 下 是 算法 的 基本 步 又， 适用 于 无 标号 的 数据 集 : 
口 将 当前 观测 数据 标记 为 类 别 1; 
口 创建 男 一 个 与 上 面 的 观测 数据 同样 大 小 的 ( 合成 ) 集合 ， 创 建 方法 是 使 用 观测 数据 中 的 
每 个 特征 进行 随机 抽样 ， 所 以 如 果 观 测 数据 中 有 20 个 特征 ， 那 么 合成 数据 中 也 有 20 个 同 




















样 的 特征 ; 
口 将 合成 集合 中 的 数据 标记 为 类 别 2， 这 样 就 人 工 创建 了 一 个 适合 应 用 随机 森林 的 分 类 
问题 ; 

















口 创建 一 个 随机 森林 模型 ， 使 用 上 面 的 两 个 类 别 对 数据 进行 分 类 ; 

口 将 模型 在 观测 数据 〈 丢弃 合成 数据 ) 上 的 邻近 度 转换 为 相 异 度 矩 阵 ; 
口 使 用 这 个 相 异 度 矩 阵 作 为 从 类 的 输入 特征 。 

那么 ， 什 么 是 邻近 度 呢 ? 


邻近 度 是 所 有 观测 两 两 之 间 的 一 种 度量 。 如 果 两 个 观测 能 够 到 达 一 棵 树 的 同一 个 
点 ， 它 们 的 邻近 度 就 是 1， 否 则 是 0。 











随机 森林 模型 运行 结束 后 , 要 对 观测 数据 的 邻近 度 分 数 进行 标准 化 ， 除 以 树 的 总 数 即 可 。 最 
终 的 Nx NN 和 矩阵 中 ,分 数值 范围 为 0~1， 当 然 ， 对 角 线 上 都 是 1。 这 种 方法 就 介绍 到 这 里 ， 它 非常 
有 效 ， 但 尚未 得 到 广泛 应 用 ， 我 要 是 早点 学 会 这 种 方法 就 好 了 。 























8.5 业务 理解 


直到 几 周 前 我 才 知 道 ， 全 球 只 有 不 到 300 位 经 过 认证 的 侍 酒 大 师 。 世 界 侍 酒 大 师 协 会 主持 的 
认证 考试 以 要 求 严 茄 、 失 败 率 高 而 名 闻 超 偿 。 


纪录 片 《 侍 酒 师 》 广 受 好 评 , 详细 纪录 了 几 位 年 轻 人 在 追求 侍 酒 大 师 认 证 过 程 中 的 努力 拼搏 ， 
以 及 获得 的 丰厚 回报 。 下面 进行 实战 练习 , 帮助 一 位 梦想 成 为 侍 酒 大 师 而 奋斗 的 年 轻 人 发 现 意 大 
利 葡 菊 酒 的 潜在 结构 。 


8.6 ”数据 理解 与 数据 准备 


首先 加 载 本 音 所 需 的 R 包 ， 和 往常 一 样 ， 你 要 确定 已 经 安装 了 这 些 R 包 : 






































8.6 ”数据 理解 与 数据 准备 153 





> library(cluster) #conduct cluster analysis 
library (compareGroups) #build descriptive statistic tables 
library (HDclassif) #contains the dataset 
library (NbClust) #cluster validity measures 


> 
> 
> 
> library (sparcl) #colored dendrogram 





数据 集 位 于 HDclassif 包 中 ， 我 们 已 经 安装 好 了 。 加 载 数 据 ， 使 用 str () 函数 检查 数据 结构 : 


> data (wine) 





> str(wine) 
'data.frame':178 obs. of 14 variables: 
$ class: int 1111111111... 


$ V1 : num 14.2 13.2 13.2 14.4 13.2 

$ V2 : num 1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 
$ V3 : num 2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 
$ v4 : num 15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ... 

$ V5 : int 127 100 101 113 118 112 96 121 97 98 ... 

$ v6 : num 2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ... 

$ V7 : num 3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 
$ v8 : num 0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 

$ V9 : num 2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 
$ V10 : num 5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 


$ Vil : num 1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 


$ V12 : num 3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ... 
$ V13 : int 1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ... 


数据 包括 178 种 葡萄 酒 ， 有 13 个 变量 表示 酒 中 的 化 学 成 分 ， 还 有 一 个 标号 变量 Class， 表 示 品 
种 等 级 或 葡萄 种 植 品种 。 在 聚 类 过 程 中 ， 我 们 不 会 使 用 这 个 标号 变量 ， 而 是 用 它 验证 模型 性 能 。 
变量 V1~vV13 表 示 酒 中 化 学 成 分 的 测量 结果 ， 如 下 所 示 。 






































DO v1: 酒精 

口 v2: 苹果 酸 
口 V3: 灰分 

口 V4: 灰分 碱 性 
口 v5: 镁 


口 v6: 总 酚 含 量 

口 V7: 黄酮 类 化 合 物 
口 v8: 非 黄酮 类 酚 类 
口 v9: 原 花 青 素 

口 V10: 色彩 强度 

口 V11: 色调 

DQ v12: OD280/OD315 

















154 第 8 章 聚 类 分 析 








口 V13: 腿 氨 酸 


变量 都 是 定量 的 ， 应 该 将 变量 重 命名 为 对 于 我 们 的 分 析 有 意义 的 形式 ,使 用 name ( ) 函数 
即 可 : 



































> names(wine) <- c("Class", "Alcohol", "MalicAcid", "Ash", 
"Alk ash", "magnesium", "T phenols", "Flavanoids", "Non flav", 
"Proantho", "C_ Intensity", "Hue", "0D280_ 315", "Proline") 


> names (wine) 


[1] "Class" "Alcohol" "MalicAcid" "Ash" 
[5] "Alk ash" "magnesium" "T phenols" "Flavanoids" 
[9] "Non flav" "Proantho" "C_ Intensity" "Hue" 


[13] "0D280_ 315" "Proline" 


因为 变量 没有 进行 标准 化 ,所 以 使 用 scale () 函数 完成 这 个 工作 。 这 个 函数 先 将 数据 中 心 化 ， 
即 用 每 列 的 变量 值 减 去 这 一 列 的 均值 。 中心 化 的 数据 再 除 以 相应 列 的 标准 差 即 可 完成 标准 化 。 转 
换 数据 时 ， 要 确认 只 对 第 2 列 ~ 第 14 列 数据 操作 ， 跳 过 Class 列 ， 转 换 后 的 数据 保存 在 一 个 数据 
中 。 以 上 操作 都 可 以 通过 一 行 代码 完成 : 























TH 








> df <- as.data.frame(scale(wine[, -1])) 


现在 检查 数据 结构 ， 确 保 以 上 操作 都 按 计 划 进 行 : 


> str(df) 
'data.frame':178 obs. of 13 variables: 
$ Alcohol : num 1.514 0.246 0.196 1.687 0.295 ... 
$ MalicAcid : num -0.5607 -0.498 0.0212 -0.3458 0.2271 ... 
$ Ash : num 0.231 -0.826 1.106 0.487 1.835 ... 
$ Alk_ash : num -1.166 -2.484 -0.268 -0.807 0.451 ... 
$ magnesium : num 1.9085 0.0181 0.0881 0.9283 1.2784 ... 
$ T phenols : num 0.807 0.567 0.807 2.484 0.807 ... 
$ Flavanoids : num 1.032 0.732 1.212 1.462 0.661 ... 
$ Non_ flav : num -0.658 -0.818 -0.497 -0.979 0.226 ... 
$ Proantho : num 1.221 -0.543 2.13 1.029 0.4 ... 
$ C Intensity: num 0.251 -0.292 0.268 1.183 -0.318 ... 
$ Hue : num 0.361 0.405 0.317 -0.426 0.361 ... 
$ 0D280 315 : num 1.843 1.11 0.786 1.181 0.448 ... 
$ Proline : num 1.0102 0.9625 1.3912 2.328 -0.0378 ... 


进行 下 一 步 之 前 ， 通 过 一 个 表格 看 看 品种 等 级 Class 的 分 布 : 


> table(wine$Class) 





1: 2° .3 
59 71 48 


下 面 进 入 模型 构建 阶段 。 
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8.7 ”模型 构建 与 模型 评价 


建立 数据 框 df 之 后 ， 可 以 使 用 聚 类 算法 。 先 使 用 层次 聚 类 ， 然 后 再 试 试 K 均 值 方法 。 此 后 需 
要 对 数据 进行 一 些 调整 ， 演 示 如 何 使 用 果 瓦 系数 和 随机 森林 处 理 混合 数据 。 














8.7.1 层次 聚 类 


要 在 R 中 建立 层次 聚 类 模型 ,可 以 使 用 stats 包 中 的 hclust () 函数 。 这 个 函数 需要 两 个 基本 输 
入 : 距离 矩阵 和 聚 类 方法 。 使 用 ai st () 函数 可 以 轻松 生成 距离 矩阵 ， 我 们 使 用 的 是 欧 氏 距离 。 
可 以 使 用 的 聚 类 方法 有 若干 种 ，hclust () 函数 使 用 的 默认 方法 是 最 大 距离 法 。 


我 们 将 使 用 默认 方法 , 但 我 建议 你 试 试 Ward 距 离 法 , 这 种 方法 得 出 的 簇 的 观测 数量 相差 可 能 
更 小 。 


在 最 大 距离 法 得 出 的 结果 中 , 两 个 簇 之 间 的 距离 等 于 两 个 簇 中 的 观测 之 间 的 最 大 距离 。Ward 
距离 法 对 观测 进行 聚集 的 目标 是 ， 使 簇 内 观测 的 误差 平方 和 最 小 。 


值得 注意 的 是 ， 在 R 中 ，ward.D2 方 法 使 用 欧 氏 距离 的 平方 来 测量 距离 ， 这 是 真正 的 Ward 距 
离 法 。R 中 还 有 一 个 ward.D 方 法 ， 但 它 要 求 使 用 距离 矩阵 的 平方 作为 输入 值 ， 因 为 我 们 建立 距离 
和 矩阵 时 用 的 是 未 进行 平方 运算 的 数值 ， 所 以 需要 使 用 ward.D2。 


现在 的 一 个 重要 问题 是 ,应 该 生成 多 少 个 复 ? 就 像 本 音 开 始 部 分 所 说 的 ,答案 就 是 “看 情况 "”， 
但 这 个 答案 太 简 单 了 , 不 那么 令 人 满意 。 我 们 将 会 看 到 ， 要 解决 这 个 难题 ， 除 了 需要 一 些 聚 类 有 
效 性 指标 以 外 ,确实 还 需要 对 商业 环境 和 基础 数据 的 深刻 理解 ， 以 及 不 断 的 测试 和 纠 错 。 因 为 我 
们 的 侍 酒 师 是 虚构 的 , 所 以 只 能 依靠 聚 类 有 效 性 指标 。 但 是 , 在 选择 簇 的 数目 方面 没有 万 能 良药 ， 
因为 有 效 性 指标 多 达 几 十 种 。 


对 大 量 聚 类 有 效 性 指标 的 优 缺 点 的 研究 已 经 超出 了 本 章 的 范围 ,既然 如 此 , 我 们 就 通过 两 篇 
论文 以 及 R 语 言 本 身 来 简化 这 个 问题 。Miligan 和 Cooper 在 1985 年 的 一 篇 论文 中 ,使 用 模拟 数据 研 
究 了 30 种 不 同 的 聚 类 有 效 性 指标 。 表 现 最 好 的 前 5$ 种 指标 是 CH 指数 、Duda 指 数 、Cindex 、Gamma 
和 Beale 指 数 。 男 外 一 种 确定 入 数目 的 著名 方法 是 gap 统 计量 (Tibshirani、Walther 与 Hastie, 2001 )。 
这 两 篇 论文 可 以 帮助 你 选择 合适 的 聚 类 有 效 性 指标 。 


在 R 中 , 我 们 可 以 使 用 NbClust 包 中 的 Nbclust () 函数 , 求 出 23 种 聚 类 有 效 性 指标 的 结果 , 包 
括 Miligan 和 Cooper 论 文中 最 好 的 5 种 和 gap 统 计量 。 你 可 以 在 这 个 R 包 的 帮助 文件 中 找到 所 有 指标 
的 列表 。 有 两 种 方式 可 以 执行 这 个 函数 ， 一 种 是 选择 你 最 喜欢 的 指标 ， 通 过 R 语 言 进 行 调用 ; 另 
一 种 方式 是 在 分 析 时 包括 所 有 指标 , 然后 按照 少数 服从 多 数 的 原则 进行 选择 。 这 个 函数 可 以 生成 
一 个 非常 详细 的 摘要 ， 同 时 还 可 以 生成 两 张 统计 图 。 


说 完 这 个 问题 之 后 ,尝试 通过 示例 使 用 最 大 距离 法 。 使 用 这 个 函数 时 ,你 需要 指定 簇 的 最 小 
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值 和 最 大 值 、 
为 numComplete 的 对 象 ， 函 数 指定 使 月 


最 大 距离 法 ， 
法 ， 又 使 用 / 


> numComplete <- NbClust(dqft， 


* 炎 类 


In the 


* 炎 类 


In the 
Dindex 
of the 


炎炎 类 炎炎 类 
Amon 
1 pr 
11 P 
6 pr 
5 pr 


* 


* 
* 
* 
* 


* Acco 


根据 少 
生成 的 两 张 
个 明显 的 拐点 





距离 类 型 、 测 距 方 式 和 有 效 性 指标 。 在 以 下 的 代码 中 可 以 看 到 ,我 们 要 建立 一 个 名 
昌 欧 氏 距 离 ， 艇 的 最 小 数量 为 2， 最 大 数量 为 6， 测 距 方 式 为 
并 使 用 所 有 有 效 性 指标 。 函 数 运行 后 会 自动 输出 类 似 下 面 的 内 容 一 一 既 使 用 图 形 方 


少数 服从 多 数 原则 来 确定 簇 的 数目 : 









































"euclidean", min.nc 
"wall" 和 


distance = 
"complete", index = 


2， 


max.nc=6, method 


: The Hubert index is a graphical method of determining the 


number of clusters. 
plot of Hubert index, we seek a significant knee that 
Corresponds to a significant increase of the value of the 
measure that is the significant peak in Hubert index second 
differences plot. 


: The D index is a graphical method of determining the number 


of clusters. 

plot of D index, we seek a significant knee (the significant peak in 
second differences plot) that corresponds to a significant increase 
value of the measure. 


灾 尖 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 类 


g all indices: 

oposed 2 as the best number of clusters 
roposed 3 as the best number of clusters 
oposed 5 as the best number of clusters 
oposed 6 as the best number of clusters 


尖 炎 类 炎炎 Conclusion 尖 炎 炎炎 类 


rding to the majority rule, the best number of clusters is 3 


> 数 服从 多 数 原则 ， 我 们 应 该 选择 3 个 多 至 少 对 于 层次 聚 类 是 这 样 。 对 于 
统计 图 ， 每 张 图 中 有 两 幅 图 。 正 如 前 面 的 输出 结果 所 示 ， 在 左 侧 的 图 中 ,你 要 找 出 一 
点 ; 在 右 侧 的 图 中 ， 你 要 找到 峰值 。 下 面 是 Hubert 指 数 图 。 
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可 以 看 到 , 左 图 在 3 个 簇 的 地 方 有 个 拐点 , 右 图 在 3 个 入 的 时 候 达 到 峰值 。 下 面 的 Dindex 图 也 


提供 了 同样 的 信息 。 
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Nbclust () 函数 的 结果 中 有 很 多 种 数值 , 我 只 介绍 其 中 一 种 











每 种 有 效 性 指标 的 最 优 复数 


量 和 与 之 对 应 的 指标 值 。 这 些 数值 可 以 通过 $Bestnc 引 用 。 我 只 列 出 前 9 个 指标 ， 省 略 其 他 : 


> numCompletes$sBest.nc 

KL CH Hartigan 
5.0000 3.0000 
14.2227 48.9898 


Number_ clusters 
Value_ Index 





CCC 
3.0000 5.000 
27.8971 1.148 340.9634 


Scott 
3.0000 


Marriot TrCovWw TraceW Friedman 
Number_ clusters 3.000000e+00 3.00 3.0000 3.0000 
Value_Index 6.872632e+25 22389.83 256.4861 10.6941 


可 以 看 到 第 一 个 指标 ( KL ) 的 最 优 复数 量 是 5， 匈 
进行 聚 类 ， 现 在 计算 距离 矩阵 ， 并 建立 层次 聚 类 模型 。 如 下 所 示 : 


选择 3 个 簇 





> dis <- dist(df, method = "euclidean") 





全 





上 7 一 























个 指标 ( CH ) 的 最 优 簇 数量 是 3。 


然后 ， 使 用 这 个 矩阵 作为 hclust () 函数 的 输入 ， 进 行 实际 的 聚 类 过 程 : 



































> hc <- hclust(dis, method = "complete") 

层次 聚 类 可 视 化 的 通用 方式 是 画 出 树 状 图 ， 可 以 用 plot 函 数 实 现 。 注 意 ， 参 数 hang=-1 表 示 
将 观测 排列 在 图 的 底部 : 

> plot(he，hang = -1, labels = FALSE, main = "Complete-Linkage") 

这 个 树 状 图 表明 了 观测 是 如 何事 集 的 , 图 中 的 连接 ( 也 可 称 为 分 支 ) 告诉 我 们 哪些 观测 是 相 





似 的 。 分 支 的 高 度 表 示 观 测 之 间 相 似 或 相 异 的 程度 ， 这 个 程度 可 以 从 距离 矩阵 中 得 到 。 请 注意 ， 
我 设置 了 参数 1abels=FALSE， 这 是 为 了 使 统计 图 清晰 可 读 ， 因 为 观测 数量 太 多 。 如 果 是 一 个 不 
多 于 40 个 观测 的 小 数据 集 ， 则 可 以 显示 每 行 标记 。 





















































Complete-Linkage 



























































Height 
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如 果 想 使 聚 类 可 视 化 效果 更 好 ,可 以 使 用 sparcl 包 生成 彩色 树 状 图 。 要 对 合适 数目 的 徐 上 色 ， 
需要 使 用 cutree () 函数 对 树 状 图 进行 前 枝 ， 以 得 到 合适 的 簇 的 数目 。 这 个 函数 还 可 以 为 每 个 观 
测 生 成 秘 标 号 : 



































ee 
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> comp3 <- cutree(hc, 3) 


可 以 在 函数 中 使 用 comp3 对 象 生成 彩色 树 状 图 : 







































































































































































































































































> ColorDendrogram(hc, y = comp3, main = "Complete", branchlength = 50) 
Complete 
2 了 
本 
过 
TJ 户 一 - | 
ss = [ 
Q 于 1 | 
已 :这 
| 
| | | 

















dis 
hclust (*, "complete ) 


请 注意 ， 我 指定 了 参数 branchlength=50， 这 个 值 要 根据 你 自己 的 数据 确定 。 因 为 我 们 已 
经 有 了 簇 标 号 ， 所 以 可 以 建立 一 个 表格 查看 每 个 簇 中 观测 的 数量 : 








> table (comp3) 


Comp3 
1 2 3 
69 58 51 





出 于 好 奇 ， 我 们 比较 这 个 聚 类 结果 和 品种 等 级 的 标号 : 
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> table(comp3,wines$Class) 


ee 人 
1 51 18 0 
2 8 50 0 
3 0 3 48 


























这 个 表 中 ， 行 是 复 标 号 ， 列 是 品种 等 级 标号 。 聚 类 结果 匹配 了 84% 的 品种 等 级 。 请 注意 ,我 
们 不 想 用 聚 类 结果 去 预测 品种 等 级 ， 在 这 个 例子 中 没有 任何 理由 这 样 做 。 


下 面试 试 Ward 距 离 法 。 代 码 和 前 面 的 一 样 ， 首 先 确定 簇 的 数目 ， 应 该 将 method 的 值 改 为 


Ward .D2: 





diss = NULL, distance = 
method = "ward.D2", index = 


"euclidean", 
"all") 


> numWard <- NbClust(df, 

min.nc = 2, max.nc = 6, 
*** : The Hubert index is a graphical method of determining the number of 
clusters. 
In the plot of Hubert index, we seek a significant knee that corresponds to 
a significant increase of the value of the measure i.e the significant peak 
in Hubert index second differences plot. 
*** : The D index is a graphical method of determining the number of 
clusters. 
In the plot of D index, we seek a significant knee (the significant peak in 
Dindex second differences plot) that corresponds to a significant increase 
of the value of the measure. 


突 炊 炎 碎 火炎 炎炎 火炎 炎炎 粹 类 火炎 大 炎炎 炎炎 火炎 炎炎 粹 类 火炎 大 火炎 炎炎 火炎 炎炎 炎炎 火炎 类 炎 火炎 火炎 炎炎 火炎 火炎 粹 类 火炎 大火 火炎 火 火 火炎 类 





* Among all indices: 

* 2 proposed 2 as the best number of clusters 
* 18 proposed 3 as the best number of clusters 
* 2 proposed 6 as the best number of clusters 


大 炎炎 大 CODC1LUSOD ***** 


* According to the majority rule, the best number of clusters is 3 


这 次 的 结果 也 没什么 变化 ， 根 据 少数 服从 多 数 原则 ， 簇 的 数目 是 3。 看 一 下 Hubert 指 数 图 ， 
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Dindex 图 提供 的 最 优 解 也 是 3 个 簇 。 
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下 面 开 始 实际 的 聚 类 过 程 ， 生 成 Ward 距 离 法 的 树 状 图 : 
> hcWard <- hclust(dis, method = "ward.D2") 


> plot (hcWard, labels = FALSE, main = "Ward's-Linkage") 





Ward's-Linkage 








Height 














10 15 20 25 30 35 


























5 
1 




























































































剖 














0 
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dis 
hclust (*, "ward.D2") 
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图 中 显示 的 3 个 簇 区 别 十 分 明显 ， 每 个 簇 中 观测 的 数量 大 致 相同 。 计 算 每 个 徐 的 大 小 ， 并 








品种 等 级 标号 进行 比较 : 


> ward3 <- cutree(hcWard, 3) 
> table(ward3, wines$Class) 


ward3 1 2 3 
159 5 0 
2 058 0 
3 0 8 48 





与 


可 以 看 到 ,第 一 个 簇 中 有 64 个 观测 ， 第 二 个 篮 中 有 58 个 观测 ， 第 三 个 簇 中 有 56 个 观测。 与 最 


大 距离 法 相 比 ， 这 种 方法 和 品种 等 级 的 分 类 更 加 匹配 。 
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通过 为 一 个 表 比 较 两 种 方法 的 观测 匹配 情况 : 


> table(comp3, ward3) 

ward3 
comp3 1 2 3 

153 11 5 

2 11 47 0 

3 0 0 51 

两 种 方法 中 的 第 三 个 复 非 常 接近 ,其 他 两 个 自 则 有 差别 。 那 么 问题 来 了 ,我们 如 何 找 出 这 种 
差别 解释 这 个 现象 ? 很 多 例子 中 的 数据 集 非常 小 , 你 可 以 查看 每 个 复 中 的 观测 。 但 在 实际 世界 中 ， 
这 经 常 是 不 可 能 的 。 一 个 比较 好 的 方法 是 使 用 aggregate () 函数 ， 计 算 均 值 或 中 位 数 等 统计 量 。 
此 外 ,计算 时 不 使 用 标准 化 后 的 数据 ， 而 是 在 原始 数据 上 进行 实验 。 在 这 个 函数 中 ,你 需要 指定 
数据 集 、 育 集 数据 的 依据 和 摘要 统计 量 : 

> aggregate(wine[, -1], list(comp3), mean) 
Group.1 ALcohol MalicAcid Ash Alk ash magnesium T phenols 

1 1 13.40609 1.898986 2.305797 16.77246 105.00000 2.643913 

2 2 12.41517 1.989828 2.381379 21.11724 93.84483 2.424828 

3 3 13.11784 3.322157 2.431765 21.33333 99.33333 1.675686 

Flavanoids Non flav Proantho C Intensity Hue 0D280_315 Proline 

1 2.6689855 0.2966667 1.832899 4.990725 1.0696522 2.970000 984.6957 

2 2.3398276 0.3668966 1.678103 3.280345 1.0579310 2.978448 573.3793 

3 0.8105882 0.4443137 1.164314 7.170980 0.6913725 1.709804 622.4902 

这 样 就 计算 出 数据 中 13 个 变量 在 各 个 簇 中 的 均值 。 最 大 距离 法 的 计算 完成 之 后 ， 计 算 Ward 
距离 法 : 



































> aggregate(wine[, -1], list(ward3), mean) 

Group.1 Alcohol MalicAcid Ash Alk ash magnesium T phenols 

1 1 13.66922 1.970000 2.463125 17.52812 106.15625 2.850000 

2 2 12.20397 1.938966 2.215172 20.20862 92.55172 2.262931 

3 3 13.06161 3.166607 2.412857 21.00357 99.85714 1.694286 
Flavanoids Non flav Proantho C Intensity Hue 0D280_315 Proline 
1 3.0096875 0.2910937 1.908125 5.450000 1.071406 3.158437 1076.0469 
2 2.0881034 0.3553448 1.686552 2.895345 1.060000 2.862241 501.4310 
3 0.8478571 0.4494643 1.129286 6.850179 0.721000 1.727321 624.9464 
各 个 数值 都 非常 接近 。Ward 距 离 法 中 的 第 一 个 簇 中 所 有 变量 的 均值 要 稍 高 一 些 ， 第 二 个 簇 中 
除了 Hue 以 外 ， 其 他 变量 的 均值 要 稍 低 一 些 。 可 以 将 这 个 结果 与 具有 领域 专业 知识 的 人 分 享 一 下 ， 
请 求 他 们 给 出 解释 。 我 们 用 统计 图 表示 两 种 方法 中 的 每 个 篮 的 变量 值 ， 这 样 有 助 于 理解 和 解释 。 


箱 线 图 可 以 很 好 地 比较 变量 的 分 布 , 它 可 以 展示 最 小 值 、 第 一 四 分 位 数 、 中 位 数 、 第 三 四 分 
位 数 、 最 大 值 和 可 能 的 离 群 点 。 


假设 我 们 对 两 种 聚 类 方法 中 的 Proline 值 很 感 兴趣 , 可 以 生成 一 个 带 有 两 幅 箱 线 图 的 统计 图 进 
行 比较 。 首 先 要 准备 制图 区 域 ， 使 两 幅 图 并 列 排 列 。 使 用 par () 函数 即 可 : 


> par(mfrow =C (1, 2)) 
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设置 参数 1mfrow=c (1，2) ) 表示 需要 一 行 两 列 的 统计 图 ， 如 果 需 要 两 行 一 列 的 统计 图 ， 则 
应 该 设 定 lmfrow=c(2，1) ) 。 使 用 poxplot () 函数 时 ， 通 过 波形 符号 (~ ) 指定 Y 轴 上 的 值 是 X 
轴 上 的 值 的 函数 : 


> boxplot (wineS$Proline ~ comp3, data = winey 
main="Proline by Complete Linkage") 





> boxplot (wineS$Proline ~ ward3, data = wine, 
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看 一 下 箱 线 图 ， 其 中 的 方 框 代表 第 一 四 分 位 数 、 中 位 数 ( 方 框 中 间 的 粗 横 线 ) 和 第 三 四 分 位 
数 ， 称 为 四 分 位 距 。 虚 线 的 端点 ( 通常 称 为 须 ) 代表 最 大 值 和 最 小 值 。 可 以 看 到 ， 最 大 距离 法 的 
第 二 个 徐 的 最 大 值 上 面 有 5 个 空心 小 圆 点 ， 这 是 疑似 离 群 点 ， 也 就 是 值 超过 方 框 两 端 1.5 们 四 分 位 
距 的 点 。 


任何 值 超过 方 框 两 端 3 倍 四 分 位 距 的 点 都 被 认定 为 离 群 点 ， 用 实心 圆 点 表示 。Ward 距 离 法 中 
的 第 一 个 和 第 二 个 徐 具 有 更 紧凑 的 四 分 位 距 ， 没 有 疑似 离 群 点 。 这 是 我 的 个 人 意见 ， 仅 供 参考 。 









































查看 每 个 变量 的 箱 线 图 有 助 于 你 和 领域 专家 确定 最 好 的 层次 聚 类 方法 ,讨论 完 这 
些 问题 之 后 ， 下 面 介绍 KK 均值 聚 类 。 


8.7.2 KK 均 值 聚 类 


正如 我 们 在 层次 聚 类 中 做 的 那样 ， 可 以 使 用 Nbclust () 函数 确定 K 均 值 聚 类 的 最 优 复数 目 。 
只 需 在 函数 中 将 method 的 值 设 定 为 kmeans 即 可 ， 同 时 将 最 大 复数 目 放 大 到 15。 我 简化 了 输出 ， 
只 列 出 了 少数 服从 多 数 原 则 的 部 分 : 
> numKMeans <- NbClust(df, min.nc = 2, max.nc = 15, method = 


"kmeans") 
* Among all indices: 
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4 proposed 2 as the best number of clusters 

15 proposed 3 as the best number of clusters 
1 proposed 10 as the best number of clusters 
1 proposed 12 as the best number of clusters 
1 proposed 14 as the best number of clusters 
1 proposed 15 as the best number of clusters 


外 外 外 


类 类 类 大 CONnC1USiOn **** 炎 炎 


* According to the majority rule, the best number of clusters is 3 
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在 R 中 , 我们 使 用 kmeans () 函数 进行 KK 均 值 聚 类 。 除 了 输入 数据 之 外 , 还 要 指定 刚刚 得 出 的 
簇 的 数目 ， 以 及 表示 随机 分 配 的 参数 nstart， 还 需要 设 定 随机 数 种 子 : 


> set.seed(1234) 





> km <- kmeans(df, 3, nstart = 25) 
建立 一 个 表格 ， 可 以 知道 观测 在 簇 之 间 的 分 布 情况 : 


> table(km$cluster) 








1 2 3 
62 65 51 


簇 之 间 的 观测 数量 分 布 得 非常 均衡 。 我 曾经 不 止 一 次 遇 到 过 这 种 情况 ,在 一 个 有 很 多 变量 的 
大 数据 集中 ， 不管 使 用 多 少 个 复 的 K 均 值 聚 类 ， 都 得 不 到 有 价值 且 令 人 信服 的 结果 。 对 聚 类 结 
的 男 一 种 分 析 方 式 是 查看 入 中 心 点 矩阵 ， 它 保存 了 每 个 簇 中 每 个 变量 的 中 心 点 值 : 


> km$centers 

AlLcohol MalicAcid Ash Alk_ ash magnesium T phenols 
1 0.8328826 -0.3029551 0.3636801 -0.6084749 0.57596208 0.88274724 
2 -0.9234669 -0.3929331 -0.4931257 0.1701220 -0.49032869 -0.07576891 
3 0.1644436 0.8690954 0.1863726 0.5228924 -0.07526047 -0.97657548 











Flavanoids Non_ flav Proantho C_ Intensity Hue 0D280_315 
1 0.97506900 -0.56050853 0.57865427 0.1705823 0.4726504 0.7770551 
2 0.02075402 -0.03343924 0.05810161 -0.8993770 0.4605046 0.2700025 
3 -1.21182921 0.72402116 -0.77751312 0.9388902 -1.1615122 -1.2887761 
Proline 
1 1.1220202 
2 -0.7517257 
3 -0.4059428 


注意 , 第 一 个 艇 具有 相对 较 高 的 酒精 成 分 。 我 们 做 一 个 箱 线 图 看 看 酒精 成 分 的 分 布 ， 和 前 面 
的 做 法 一 样 ， 用 Ward 距 离 法 进行 对 比 : 


> boxplot (wine$ALcohol ~ kms$cluster, data = wine, 
main = "Alcohol Content, K-Means") 














> boxplot (wines$sAlcohol ~ ward3, data = wine, 











main = "Alcohol Content, Ward's") 
Alcohol Content, K-Means Alcohol Content, Ward's 
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每 个 簇 中 的 酒精 成 分 在 两 幅 图 中 几乎 是 一 模 一 样 的 。 这 在 表面 上 说 明了 3 个 簇 正 是 wine 数 据 
集中 的 潜在 结构 ， 而 且 ， 使 用 K 均 值 方 法 和 层次 聚 类 方法 在 结果 上 没有 什么 大 的 区 别 。 最 后 ， 对 
比 K 均 值 聚 类 结果 和 品种 等 级 : 


> table(km$cluster, wines$sClass) 

















1 2 3 
159 3 0 
2 065 0 
3 0 3 48 











这 与 Ward 距 离 法 产生 的 结果 非常 相似 , 对 于 我 们 虚拟 的 侍 酒 师 来 说 , 任何 一 种 方法 的 结果 都 
可 以 接受 。 


为 了 演示 如 何在 既 有 数值 型 数据 又 有 非 数值 型 数据 的 数据 集 上 进行 聚 类 ， 青 介绍 男 外 几 个 
例子 。 
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8.7.3 果 瓦 系数 和 PAM 


要 开始 这 个 步骤 , 需要 对 数据 做 一 点 整理 。 因 为 这 种 方法 可 以 处 理 因子 变量 , 所 以 可 以 将 酒 
精 函 数 转换 为 因子 ， 它 有 两 个 水 平 : 高 / 低 。 使 用 ifelse () 函数 ， 时 需 一 行 代码 即 可 将 变量 转换 
为 因子 。 如 果酒 精 含 量 大 于 0， 因 子 的 水 平 就 是 High， 和 否则 为 Low: 

















ul 


























> wines$sAlcohol <- as.factor(ifelse(df$Alcohol > 0, "High", "Low")) 
现在 建立 相 异 度 和 矩阵 ， 使 用 cluster 包 中 的 daisy () 函数 ， 指 定 方法 为 gower: 


> disMatrix <- daisy(wine[, -1], metric = "gower") 


要 建立 聚 类 对 象 , 可 以 使 用 cluste 包 中 的 pam() 函数 , 将 聚 类 对 象 命名 为 pamFit。 建立 3 个 簇 ， 
并 生成 一 个 表格 表明 簇 的 大 小 : 


> set.seed(123) 











> pamFit <- pam(disMatrix, k = 3) 
> table(pamFits$clustering) 


1 2 .3 
63 67 48 


然后 ， 对 比 聚 类 结果 和 品种 等 级 : 


> table(pamFits$clustering, wines$Class) 


1 2 3 
157 6 0 
2 264 1 
3 0 147 








接受 这 个 结果 , 并 使 用 compareGroups 包 建立 一 张 描述 性 统计 表 。 在 R 的 基础 包 中 ,很 难 建 
立 可 以 用 于 商业 展示 的 表格 ，compareGroups 包 则 非常 好 地 解决 了 这 个 问题 。 第 一 步 是 通过 包 
中 的 compareGroups () 函数 建立 一 个 对 象 ， 保 存 聚 类 结果 中 的 描述 性 统计 。 然 后 使 用 
createTable() 函数 , 将 描述 性 统计 转换 成 一 个 非常 容易 导出 的 表格 。 我 们 将 以 .csv 文 件 的 形 
式 将 其 导出 ， 如 果 你 愿意 ， 可 以 将 表格 导出 为 .pdf、HTML 或 者 LaTeX 文 件 形 式 : 



































> wines$scluster <- pamFits$clustering 
> group <- compareGroups(cluster ~ ., data = wine) 
> clustab <- createTable (group) 
> clustab 


ee Summary descriptives table by 'cluster'--------- 
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1 2 3 p.overall 
N=63 N=67 N=48 
Class 1.10 (0.30) 1.99 (0.21) 2.98 (0.14) <0.001 
ALcohol : <0.001 
High 63 (100%) 1 (1.49%) 28 (58.3%) 

Low 0 (0.00%) 66 (98.5%) 20 (41.7%) 
MalicAcid 1.98 (0.83) 1.92 (0.90) 3.39 (1.05) <0.001 
Ash 2.42 (0.27) 2.27 (0.31) 2.44 (0.18) 0.001 
Alk_ash 17.2 (2.73) 20.2 (3.28) 21.5 (2.21) <0.001 
magnesium 105 (11.6) 95.6 (17.2) 98.5 (10.6) 0.001 
T phenols 2.82 (0.36) 2.24 (0.55) 1.68 (0.36) <0.001 
Flavanoids 2.94 (0.47) 2.07 (0.70) 0.79 (0.31) <0.001 
Non_flav 0.29 (0.08) 0.36 (0.12) 0.46 (0.12) <0.001 
Proantho 1.86 (0.47) 1.64 (0.59) 1.17 (0.41) <0.001 
C_Intensity 5.41 (1.31) 3.05 (0.89) 7.41 (2.29) <0.001 
Hue 1.07 (0.13) 1.05 (0.20) 0.68 (0.12) <0.001 
0D280_315 3.10 (0.39) 2.80 (0.53) 1.70 (0.27) <0.001 
Proline 1065 (280) 533 (171) 628 (116) <0.001 
comp_cluster 1.16 (0.37) 1.81 (0.50) 3.00 (0.00) <0.001 


这 张 表 显示 了 因子 水 平 在 各 个 复 中 的 比例 , 对 于 数值 型 变量 
差 。 要 将 表格 导出 为 .csv 文 件 ， 使 用 export2csv () 


> export2csv(clustab,file = 


打开 这 个 文件 可 以 得 到 下 面 的 表 ， 





业 展 示 。 











函数 即 可 : 
"wine_clusters.csVv") 


这 个 表 对 于 更 深入 的 分 析 有 指导 作用 , 而 且 非 常 适 





， 显 示 了 均值 以 及 括号 中 的 标准 








Alcohol: 

High 

Low 
MalicAcid 
Ash 
Alk ash 
magnesium 
T_phenols 
Flavanolds 
Non _ flav 
proantho 
C_Intensity 
Hue 
OD280 315 
proline 
comp_cluster 
ward cluster 
km_cluster 
cjass: 


58{96.7%} 
2143,33%| 

-0.31 [0.62) 
0.28 (0.89) 
-0.75 [0.76) 
0.4310.77) 
0.8710.54) 
0.56 {0.40) 
-0,58 [0.56) 
0.55 (0.72) 
0.20 (0.53) 
0.46 (0.51) 
0.77(0,50) 
1.1410.74}) 
-0.54 [0.42) 
-1.15 [0.00) 
-1,16 [0.15) 


1 59(55.3%) 
2 1(1.67%) 
3 0 (0.00%}) 


6 {8.70%) 

63 (91,3%) 
-0.37 [0.89) 
-0.42 {1.14) 
0.24 (1.00} 
-0,34{1.18) 
-0.06 [0.86]) 
0.04 (0.70) 
0.00 (0.33) 
0.05 (1.06} 
-0.87 [0.38) 
0.44 (0.89) 
0.25 0.59) 
-0.72 [0.51) 
-0.14 [0.59) 
0.11 (0.49) 
0.06 (0,34}) 


0 (0.00%) 
69 (100%) 
0 {0.00%} 


N=49 


28 (57.1%) 
21 (42.9%) 
0.90 (0.97) 
0.25 (0.67) 
0.58 (0.67) 
-0.05 [0.77) 
-0.99 [0.56) 
-1.23 [0.31) 
0.711100) 
-0,.75 [0.72) 
0.99 (1.00) 
-1.19[0.51) 
-1,30 [0,38) 
-0.38 [0.37) 
1.35 (0.00) 
1.27 (0.00) 
1.33 (0,00) 





0(0.00%) 
112.049%)} 
48 (98.0%) 


p.overall 


<0.001 


<0.001 
<0.001 
<0.001 
<0.001 
<0.001 
<0.001 
<0,001 
<0.001 
<0.001 
<0.001 
<0.001 
<0.001 
<0:001 
<0.001 
<0.001 
<0.001 








最 后 ， 使 用 随机 森林 创建 一 个 相 蜡 度 和 矩阵 ， 并 通过 PAM 方 法 创建 3 个 簇 。 
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8.7.4 随机 森林 与 PAM 


要 在 R 中 执行 这 种 方法 ， 可 以 使 用 randomForest () 函数 。 设 定 随 机 数 种 子 之 后 ， 即 可 创建 
模型 对 象 。 在 下 面 的 代码 中 ,我 设 定 了 树 的 数目 为 2000， 邻 近 度 度量 为 TRUE: 








加 


> Set.seed(1) 
> rf <- randomForest (x = wine[, -1], ntree = 2000, proximity = T) 
ST 


Call: 
randomForest (x = wine[, -1], ntree = 2000, proximity = T) 
Type of random forest: unsupervised 
Number of trees: 2000 
No. of variables tried at each split: 3 


可 以 看 到 ， 调 用 rf 对 象 除了 能 知道 每 次 树 分 裂 时 抽取 的 变量 数 (mtry ) 之 外 ， 没 有 任何 有 
意义 的 输出 。 我 们 先 检查 这 个 N x N 和 矩阵 的 前 5 行 和 前 5 列 : 


> dim(rf$proximity) 
[1] 178 178 


> rf$proximity[1:5, 1:5] 





1 2 3 4 5 
1 1.0000000 0.2593985 0.2953586 0.36013986 0.17054264 
2 0.2593985 1.0000000 0.1307420 0.16438356 0.11029412 
3 0.2953586 0.1307420 1.0000000 0.29692833 0.23735409 
4 0.3601399 0.1643836 0.2969283 1.00000000 0.08076923 
5 0.1705426 0.1102941 0.2373541 0.08076923 1.00000000 





对 这 些 值 的 一 种 理解 方式 是 , 将 它们 看 作 两 个 观测 出 现在 同一 个 终端 节点 的 次 数 百分比 ! 检 
查 变量 重要 性 后 可 知 ， 完 全 能 够 丢弃 “酒精 含量 ”这 个 被 转换 过 的 输入 特征 ， 为 简单 起 见 ， 我 们 
依然 保留 它 : 


> importance (rf) 














MeanDecreaseGini 
Alcohol 0.5614071 
MalicAcid 6.8422540 
Ash 6.4693717 
Alk_ash 5.9103567 
magnesium 5.9426505 
T phenols 6.2928709 
Flavanoids 6.2902370 
Non_ flav 5.7312940 
Proantho 6.2657613 
C Intensity 6.5375605 
Hue 6.3297808 
0D280_315 6.4894731 
Proline 6.6105274 
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下 面 只 剩 下 创建 相 异 度 和 矩阵 了 ， 需 要 对 邻近 度 的 值 转换 如 下 〈(1 - 邻近 度 ) 的 平方 根 ): 
> dissMat <- sqrt(1 - rf$proximity) 
> dissMat [1:2, 1:2] 

2 


1 0.0000000 0.8605821 
2 0.8605821 0.0000000 


这 样 就 得 到 了 聚 类 算法 的 输入 特征 ， 所 以 可 以 运行 PAM 聚 类 算法 了 ， 和 以 前 一 样 : 


> set.seed(123) 








> pamRF <- pam(dissMat, k = 3) 
> table(pamRF$clustering) 
1 2 3 


62 68 48 
> table(pamRF$clustering, wines$Class) 


2 

7 5 
2 64 
0 2 


上 面 的 结果 和 使 用 其 他 技术 得 到 的 结果 很 相似 ,你 能 通过 对 随机 森林 进行 调 优 来 改善 这 个 结 
果 吗 ? 


如 果 你 的 聚 类 数据 是 一 团 乱 县 ,那么 可 以 考虑 随机 森林 方法 。 





8.8 小 结 

我 们 在 本 章 开 始 研 究 无 监督 学 习 技 术 , 重点 讨论 了 聚 类 分 析 。 它 既 可 以 进行 数据 降 维 , 也 可 
以 理解 观测 数据 。 

我 们 介绍 了 4 种 方法 : 传统 的 层次 聚 类 、K 均 值 聚 类 算法 、PAM 方 法 ， 还 有 可 以 处 理 两 种 不 
同类 型 输入 数据 ( 果 瓦 系数 和 随机 森林 ) 的 方法 。 在 来 自 3 种 不 同 品种 等 级 的 意大利 葡萄 酒 数 据 
集 上 ， 我 们 应 用 了 这 4 种 方法 来 寻找 潜在 的 数据 结构 ， 并 对 结果 进行 了 研究 。 


下 一 章 继续 研究 无 监督 学 习 方法 , 但 不 再 满足 于 寻找 观测 中 的 潜在 结构 , 重点 在 于 通过 找到 
变量 的 潜在 结构 来 构造 新 的 特征 ， 并 将 新 的 特征 用 于 监督 式 学 习 。 





























主 成 分 分 析 








“有 的 人 追 着 球 跑 ， 我 则 守候 在 球 的 必 经 之 路 上 。” 


恩 .格雷 医 基 


书 
我 们 在 本 童 依旧 致力 于 讲解 无 监督 学 习 技术 。 前 一 童 介绍 了 肾 类 分 析 , 它 可 以 将 相似 的 观测 
归 成 一 类 。 在 这 一 章 ， 我们 将 研究 主 成 分 分 析 ( PCA )， 它 可 以 对 相关 变量 进行 归 类 ， 从 而 降低 
数据 维度 ， 提 高 对 数据 的 理解 。 此 后 ,我们 会 将 主 成 分 用 于 监督 式 学 习 。 


在 很 多 数据 集中 ， 特 别 是 社会 科学 领域 的 数据 集中 ， 你 会 发 现 很 多 彼此 相关 的 变量 。 此 外 ， 
高 维度 也 会 带 来 问题 , 这 就 是 所 谓 的 维 数 灾难 ,因为 模型 估计 所 需 的 样本 数量 是 随 着 输入 特征 的 
数量 指数 增长 的 。 这 种 数据 集中 会 出 现 某 些 变量 元 余 , 因为 这 些 变量 最 后 起 的 作用 与 其 他 变量 基 
本 是 重复 的 。 比 如 收入 水 平 与 贫穷 程度 , 或 者 抑郁 度 与 焦虑 度 。 那 么 我 们 的 目标 就 是 , 通过 PCA 
从 原始 变量 集合 中 找 出 一 个 更 小 的 , 但 是 能 保留 原来 大 部 分 信息 的 变量 集合 。 这 样 可 以 简化 数据 
集 ， 并 经 常 能 够 发 现 数据 背后 隐藏 的 知识 。 这 些 新 的 变量 ( 主 成 分 ) 彼此 高 度 不 相关 ， 除了 可 以 
用 于 监督 式 学 习 之 外 ， 还 经 常用 于 数据 可 视 化 。 


我 使 用 PCA 进 行 分 析 已 经 有 十 多 年 了 ,期 间 的 一 个 感受 就 是 ，PCA 虽 然 被 广泛 使 用 ,但 真正 
理解 它 的 人 却 很 少 ， 特 别 是 在 那些 不 做 分 析 而 只 是 享受 成 果 的 人 当中 。PCA 可 以 直观 地 理解 为 ， 
使 用 一 些 相 关 的 变量 构造 一 个 新 的 变量 。 但 是 ,由 于 对 术语 的 错误 理解 ， 人 们 并 不 经 常 充分 使 用 
这 项 技术 ,其 中 的 数学 概念 也 使 非 专业 人 员 无 所 适 从 。 本 章 的 目的 就 是 说 清楚 PCA 的 概念 和 使 用 
方法 ， 包 括 以 下 内 容 : 


口 为 PCA 准 备 好 一 个 数据 集 
口 执行 PCA 

口 选择 主 成 分 

口 使 用 主 成 分 建立 一 个 预测 模型 
口 使 用 预测 模型 进行 样本 外 预测 
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9.1 主 成 分 简介 





























主 成 分 分 析 就 是 寻找 主 成 分 的 过 程 。 那 么 ， 主 成 分 到 底 是 什么 ? 


可 以 认为 成 分 训 












































i 是 特征 的 规范 化 线性 组 合 ( James ，2012 )。 在 一 个 数据 集中 ， 第 一 主 成 分 就 
是 能 够 最 大 程度 解释 数据 中 的 方差 的 特征 线性 组 合 。 第 二 主 成 分 是 男 一 种 特征 线性 组 合 ， 它 在 方 


向 与 第 一 主 成 分 垂直 这 个 限制 条 件 下 ， 最 大 程度 解释 数据 中 的 方差 。 其 后 的 每 一 个 主 成 分 (可 以 
构造 与 变量 数 相等 数目 的 主 成 分 ) 都 遵循 同样 的 规则 。 

















要 注意 两 件 事 。PCA 和 定义 提 到 了 线性 组 合 ， 这 是 一 个 关键 假设 。 如 果 你 试图 在 一 个 变量 之 间 


基本 不 相关 的 数据 集 上 使 用 PCA, 很 可 能 会 得 到 一 个 毫 无 意义 的 分 析 结果 。 另 外 一 个 关键 假设 是 ， 




















变量 的 均值 和 方差 是 充分 统计 量 。 也 就 是 说 ,数据 应 该 服从 正 态 分 布 , 这样 协 方差 矩阵 即 可 充分 
描述 数据 集 。 换 言 之 ， 


性 ， 甚 至 可 以 和 二 值 变量 一 起 使 用 ， 所 以 结果 具有 很 好 的 解释 性 。 


数据 要 满足 多 元 正 态 分 布 。PCA 对 于 非 正 态 分 布 的 数据 具有 相当 强 的 鲁 棒 





















































那么 , 这 里 说 的 “方向 ”是 什么 ”如 何 确定 特征 的 线性 组 合 呢 ? 理解 PCA 的 最 好 方式 就 是 可 


视 化 。 假设 有 一 个 小 数据 集 ， 其 中 有 两 个 变量 , 我 们 可 以 画 出 该 数据 集 的 分 布 图 。PCA 对 量度 是 











敏感 的 ， 所 以 数据 已 经 被 标准 化 为 均值 为 0、 方 差 为 1。 你 可 以 在 下 面 的 图 中 看 到 ,每 个 萎 形 代表 


一 个 观测 ， 


从 
主 成 分 


图 中 可 知 ， 数 





， 如 下 图 所 示 。 





数据 正好 组 成 一 个 椭圆 形状 。 
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据 在 X 轴 方向 具有 最 大 的 方差 ， 所 以 我 们 可 以 夯 一 条 水 平 短 划 线 来 表示 第 一 
这 个 主 成 分 是 两 个 变量 的 线性 组 合 ， 或 表示 为 PC1=alXi1+a12X，， 这 里 的 








系数 权重 是 这 个 主 成 分 中 的 变量 载荷 。 该 主 成 分 建立 了 一 个 基准 方向 , 在 这 个 方向 上 , 数据 差异 
最 大 。 上 面 的 等 式 中 有 个 限制 一 一 系数 的 平方 和 为 1， 这 是 为 了 防止 随意 选择 过 高 的 值 。 主 成 分 
的 男 一 种 理解 方式 是 , 短 划 线 使 数据 点 到 它 本 身 的 距离 最 小 。 随 意 选 出 两 个 点 ,用 箭头 表示 它们 
到 直线 的 距离 ， 如 下 页 图 所 示 。 
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可 以 用 同样 的 方式 得 出 第 二 主 成 分 只 是 它 应 该 与 第 一 主 成 分 不 相关 。 也 就 是 说 , 它 的 方向 
与 第 一 主 成 分 是 垂直 的 。 下 图 显示 第 二 主 成 分 ， 用 点 线 表 示 。 
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通过 为 每 个 变量 计算 出 主 成 分 载荷 ， 算 法 可 以 为 我 们 提供 主 成 分 得 分 。 主 成 分 得 分 是 对 于 每 9 
个 主 成 分 和 每 个 观测 计算 的 。 对 于 PC 和 第 一 个 观测 , 主 成 分 得 分 公式 为 Zhu= a x (Xn 一 XX! 的 平均 

数 ) + op x (X12 一 XX; 的 平均 数 )。 对 于 PC; 和 第 一 个 观测 ， 公 式 为 Z12= ol x (Xn 一 XX 的 平均 数 ) + 022 x 

(X12 一 Xs 的 平均 数 )。 这 些 主 成 分 得 分 就 构成 了 新 的 特征 空间 ， 你 可 以 使 用 它们 进行 各 种 分 析 。 




















我 们 前 面 说 过 ， 算 法 可 以 构造 与 变量 数 相同 的 主 成 分 ， 这 样 可 以 解释 100% 的 方差 。 那 么 应 
该 如 何 精简 主 成 分 , 来 达到 降低 数据 维度 这 一 首要 初始 目标 呢 ? 可 以 使 用 一 些 启发 式 方法 , 在 下 
面 的 建 模 过 程 中 ， 我 们 介绍 一 种 专业 但 是 通用 的 方法 ， 在 特征 值 大 于 1 的 情况 下 选择 主 成 分 。 佑 
计 特 征 值 和 特征 向 量 所 需 的 线性 代数 知识 超过 了 本 书 范围 , 尽管 如 此 , 讨论 它们 的 概念 和 在 PCA 
中 的 应 用 还 是 很 重要 的 。 














没有 其 他 可 能 的 权重 组 合 可 以 比 它 们 更 好 地 解释 方差 。 主 成 分 的 特征 值 是 它 在 整 
个 数据 集中 能 够 解释 的 方差 的 数量 。 


回忆 一 下 第 一 主 成 分 的 计算 公式 是 PC = al1X1 + a12X2。 


i 最 优 线性 权重 是 通过 线性 代数 运算 得 到 特征 向 量 而 求 出 的 , 它们 是 最 优 解 , 因为 
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因为 第 一 特征 值 可 以 解释 最 大 数量 的 方差 , 它 就 有 最 大 的 特征 值 ; 第 二 主 成 分 有 第 二 大 的 特 
征 值 , 依 此 类 推 。 所 以 , 特征 值 大 于 1 就 表示 这 个 主 成 分 解释 的 方差 比 任何 一 个 原始 变量 都 要 大 。 
如 果 通 过 标准 化 操作 将 特征 值 的 总 和 变 为 1， 就 能 够 得 到 每 个 主 成 分 解释 的 方差 的 比例 。 这 也 有 
助 于 确定 一 个 适当 的 分 界 点 。 


特征 值 原则 并 不 严格 、 明 确 ， 它 必须 和 你 的 数据 分 析 知 识 以 及 实际 业务 问题 结合 起 来 。 如 果 
你 已 经 选 定 了 主 成 分 的 数量 ， 就 可 以 对 主 成 分 进行 旋转 处 理 ， 以 简化 对 它们 的 解释 。 



































主 成 分 旋转 

应 不 应 该 做 旋转 ? 前 面 提 到 过 , 旋转 可 以 修改 每 个 变量 的 载荷 ,这样 有 助 于 对 主 成 分 的 解释 。 
旋转 后 的 成 分 能 够 解释 的 方差 总 量 是 不 变 的 , 但 是 每 个 成 分 对 于 能 够 解释 的 方差 总 量 的 贡献 会 改 
变 。 在 旋转 过 程 中 ， 你 会 发 现 载 荷 的 值 或 者 更 远离 0， 或 者 更 接近 0,， 这 在 理论 上 可 以 帮助 我 们 识 
别 那些 对 主 成 分 起 重要 作用 的 变量 。 这 是 一 种 将 变量 和 唯一 一 个 主 成 分 联系 起 来 的 尝试 。 请 记 住 ， 
PCA 是 一 种 无 监督 学 习 ， 所 以 你 是 在 努力 去 理解 数据 ， 而 不 是 在 验证 某 种 假设 。 总 之 , 旋转 有 助 
于 你 的 这 种 努力 。 

最 常用 的 主 成 分 旋转 方法 被 称 为 方差 最 大 法 。 虽然 还 有 其 他 方法 ,比如 四 次 方 最 大 法 和 等 量 
最 大 法 , 但 我 们 主要 讨论 方差 最 大 旋转 。 根据 我 的 经 验 ， 其 他 方法 从 来 没有 提供 过 比方 差 最 大 法 
更 好 的 解 。 当 然 ， 你 可 以 通过 反复 实验 来 决定 使 用 哪 种 方法 。 







































































在 方差 最 大 法 中 , 我们 要 使 平方 后 的 载荷 的 总 方差 最 大 。, 方差 最 大 化 过 程 会 旋转 
特征 空间 的 轴 和 坐标 ， 但 不 改变 数据 点 的 位 置 。 
演示 旋转 过 程 的 最 好 方式 是 通过 一 个 简单 的 图 示 。 假 设 一 个 数据 集中 有 A~G 这 7 个 变量 ， 有 
两 个 主 成 分 。 面 出 这 些 数据 ， 可 以 得 到 下 图 。 
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为 了 便于 讨论 ， 假 设 变 量 A 在 PC1 上 的 载荷 是 -0.4， 在 PC2 上 的 载荷 是 0.1; 变量 D 在 PC1 上 的 
载荷 是 0.4， 在 PC2 上 的 载荷 是 -0.3; 对 于 E 点 ， 载 荷 分 别 是 -0.05 和 -0.7。 请 注意 ， 载 荷 的 符号 与 
主 成 分 的 方向 是 一 致 的 。 运 行 方差 最 大 化 过 程 ， 旋 转 后 的 主 成 分 如 下 图 所 示 。 
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下 面 是 旋转 后 的 PC1 和 PC2 上 的 新 的 载荷 。 

口 变量 A: -0.5 和 0.02 

口 变量 D: 0.5 和 -0.3 

口 变量 E: 0.15 和 -0.75 

载荷 发 生 了 变化 , 但 数据 点 没有 变 。 通 过 这 个 简单 的 图 示 , 我 们 还 不 能 说 已 经 简化 了 对 主 成 
分 的 解释 ,但 可 以 帮助 你 理解 主 成 分 旋转 过 程 中 发 生 了 什么 。 














9.2 业务 理解 


在 这 个 案例 中 , 我们 开始 探究 体育 世界 , 具体 地 说 ,是 美国 国家 冰球 大 联盟 。 已 经 有 人 在 棱 
球 (参见 畅销 书 和 电影 《点 球 成 金 》 和 橄榄 球 上 进行 了 很 多 研究 ， 二 者 都 是 地 道 的 美国 式 运 动 ， 
并 且 被 全 世界 人 民 所 喜爱 。 但 在 我 看 来 , 没有 比 冰球 更 激动 人 心 的 运动 了 , 可 能 这 就 是 生长 于 北 达 
科 他 州 冰冻 荒原 才能 获得 的 特有 恩赐 吧 。 不 管 怎么 说 ,我 都 可 以 从 这 个 分 析 开 始 我 的 冰球 淘金 之 旅 。 


在 这 个 分 析 中 ， 我 们 要 研究 30 文 大 联盟 球 队 的 统计 数据 ， 这 个 数据 集中 的 数据 是 我 从 
www.nhl.com 和 www.puckalytics.com 这 两 个 网 站 上 整理 的 。 我 们 的 目标 是 建立 一 个 模型 来 预测 一 
只 队伍 的 总 积分 , 通过 PCA 建 立 一 个 输入 特征 空间 , 目的 是 揭示 哪些 因素 能 够 造就 一 支 顶 级 职 \ 
球 队 。 首 先 从 2015~2016 赛 季 的 数据 中 学 习 出 一 个 模型 ， 在 这 个 赛季 ， 匹 兹 堡 企鹅 队 最 终 加 园 冠 
军 ， 然后， 使 用 当前 赛季 至 2017 年 2 月 15 日 为 止 的 结果 来 检验 这 个 模型 的 性 能 。 数 据 文件 的 名 称 
是 nhlTrain.csv 和 nhltest.csv， 地 址 为 https://github.com/datameister66/data/。 
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NHL 基 于 一 个 计 分 系统 对 球 队 进行 排名 , 所 以 我 们 的 预测 结果 就 是 球 队 每 场 比赛 的 得 分 。 清 
楚 NHL 如 何 给 球 队 奖励 积分 是 非常 重要 的 。 与 橄榄 球 及 棒球 不 同 ， 它 们 只 计算 胜 场 数 和 负 场 数 ， 
职业 冰球 对 每 场 比赛 使 用 下 面 的 积分 规则 : 


口 胜 者 得 2 分 ,不 论 是 在 常规 时 间 、 加 时 还 是 加 时 后 的 点 球 大 战 中 获胜 ; 
口 常规 时 间 的 负 者 得 0 分 ; 
口 加 时 赛 或 点 球 大 战 的 负 者 得 1 分 ， 这 就 是 所 谓 负 者 分 。 

NHL 从 2005 年 开始 使 用 这 种 积分 系统 , 这 种 系统 并 非 没 有 争议 , 但 它 确实 没有 减少 这 项 运动 
中 优雅 而 又 得 体 的 力量 与 激情 。 
































数据 理解 与 数据 准备 
为 了 下 载 数据 和 进行 后 面 的 分 析 , 先 加 载 必需 的 程序 包 。 在 加 载 之 前 , 请 确保 你 已 经 安装 完毕 : 





> library (ggplot2) #support scatterplot 

> library (psych) #PCA package 

假设 你 已 经 将 两 个 .csv 文 件 保存 到 工作 目录 , 那么 可 以 使 用 read .csv() 函数 读 取 训练 数据 : 
> train <- read.csv("NHLtrain.csv") 


使 用 结构 函数 str () 检查 数据 。 为 了 节省 篇 幅 ， 我 只 列 出 函数 输出 的 开始 几 行 : 








> str(train) 

'data.frame': 30 obs. of 15 variables: 

$ Team : Factor w/ 30 levels "Anaheim","Arizona",..: 1 234567 
8 9 10 ... 

$ ppg : num 1.26 0.95 1.13 0.99 0.94 1.05 1.26 1 0.93 1.33 ... 

$ Goals For : num 2.62 2.54 2.88 2.43 2.79 2.39 2.85 2.59 2.6 3.23 


$ Goals Against: num 2.29 2.98 2.78 2.62 3.13 2.7 2.52 2.93 3.02 
2.78 ... 


下 面 需要 查看 变量 名 : 


> names (train) 

[1] "Team" "ppg" "Goals_ For" "Goals Against" "Shots_ For" 
[6] "Shots Against" "PP perc" "PK perc" "CF60 pp" "CA60_sh" 
[11] "OZFOperc pp" "Give" "Take" "hits" "blks" 


以 下 是 其 各 自 的 含义 。 

口 Team: 球 队 所 在 城市 。 
口 ppg: 平均 每 场 得 分 ， 得 分 规则 如 前 所 述 。 
口 Goals_For: 平均 每 场 进 球 数 。 
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口 Coals_Against: 平均 每 场 失 球 数 。 

口 Shots_For: 平均 每 场 射 中 球门 次 数 。 

口 Shots_Against: 平均 每 场 被 射 中 球门 次 数 。 

口 PP_perc: 球 队 获得 以 多 打 少 机 会 时 的 进 球 百分比 。 

口 PK_perc: 对 方 获得 以 多 打 少 机 会 时 ， 球 队 力 保 球门 不 失 的 时 间 百 分 比 。 

口 CF60_pp: 球 队 在 每 60 分 钟 以 多 打 少 时 间 内 获得 的 Corsi 分 值 ; Corsi 分 值 是 射门 次 数 总 和 ， 
包括 射 中 球门 次 数 ( shots_For )、 射 偏 次 数 和 被 对 方 封 堵 的 次 数 。 

口 CA60_sh: 对 方 以 多 打 少时 ， 即 本 方 人 数 劣势 时 ， 对 方 每 60 分 钟 获得 的 Corsi 分 值 。 
口 0ZFOperc_pp: 球 队 以 多 打 少 时 ， 在 进攻 区 域 发 生 的 争 球 次 数 百 分 比 。 

口 Give: 平均 每 场 丢 球 次 数 。 

口 Take: 平均 每 场 抢断 次 数 。 

口 nits: 平均 每 场 身体 冲撞 次 数 。 

口 plks: 平均 每 场 封 堵 对 方 射门 次 数 。 


我 们 需要 对 数据 进行 标准 化 ， 使 数据 的 均值 为 0， 标 准 差 为 1。 完 成 标准 化 后 ， 使 用 psych 包 
提供 的 cor .plot () 函数 ， 创 建 一 个 输入 特征 的 相关 性 统计 图 : 


















































> train.scale <- scale(train[, -1:-2]) 
> nhl.cor <- cor(train.scale) 


> cor.plot (nhl .cor) 


上 述 命令 输出 如 下 。 
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可 以 看 出 一 些 有 意思 的 事情 。 我 们 发 现 Shots_For 与 Goals_For 相 关 , 反之 , Shots_Against 
与 Goals_Against 也 相关 。 PP_perc 及 PK_perc 与 Goals_Against 之 间 存 在 某 种 负 相 关 。 


由 此 可 知 ， 这 个 数据 集 非 常 适合 提取 主 成 分 。 











9.3 ”模型 构建 与 模型 评价 
对 于 模型 构建 过 程 ， 我 们 按照 以 下 几 个 步 又 进行 : 


(1) 抽取 主 成 分 并 决定 保留 的 数量 ; 
(2) 对 留 下 的 主 成 分 进行 旋转 ; 
(3) 对 旋转 后 的 解决 方案 进行 解释 ; 
(4) 生成 各 个 因子 的 得 分 ; 
(5) 使 用 得 分 作为 输入 变量 进行 回归 分 析 ， 并 使 用 测试 数据 评价 模型 效果 。 


R 中 有 许多 方法 和 程序 包 可 以 进行 主 成 分 分 析 ， 其 中 最 常用 的 是 R 基 础 包 中 的 prcomp () 和 
princomp () 函数 。 但 是 在 我 看 来 ，psych 包 最 灵活 ， 它 有 最 好 的 选项 。 






































9.3.1 主 成 分 抽取 

通过 psych 包 抽取 主 成 分 要 使 用 principal () 函数 ， 这 个 函数 的 语法 中 要 包括 数据 和 是 否 要 
进行 主 成 分 旋转 : 

> pca <- principal (train.scale, rotate="none") 

可 以 调用 函数 生成 的 pca 对 象 检查 各 个 成 分 , 但 我 们 的 主要 目的 是 确定 要 保留 的 成 分 的 数量 。 
为 此 ， 使 用 碎 石 图 即 可 。 碎 石 图 可 以 帮助 你 评估 能 解释 大 部 分 数据 方差 的 主 成 分 ， 它 用 X 轴 表示 
主 成 分 的 数量 ， 用 Y 轴 表示 相应 的 特征 值 : 








> plot (pca$values, type="b", ylab="Eigenvalues", xlab="Component") 


上 述 命令 输出 如 下 。 
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需要 在 碎 石 图 中 找 出 使 变化 率 降 低 的 那个 点 ， 也 就 是 我 们 常 说 的 统计 图 中 的 “ 肘 点 ”或 弯曲 
点 。 在 统计 图 中 ， 肝 点 表示 在 这 个 点 上 新 增加 一 个 主 成 分 时 ,对 方差 的 解释 增加 得 并 不 太 多 。 换 
名 话说 ， 这 个 点 就 是 曲线 由 陡 变 平 的 转折 点 。 从 这 个 图 中 可 以 看 出 ，5 个 主 成 分 是 很 令 人 信服 的 。 


我 从 多 年 经 验 中 总 结 出 的 另外 一 条 原则 是 ， 你 应 该 解释 总 数 70% 左 右 的 方差 。 这 意味 着 你 选 
择 的 主 成 分 解释 的 方差 累加 起 来 ， 应 该 能 够 解释 70% 所 有 成 分 解释 的 方差 。 
































9.3.2 正 交 旋转 与 解释 


我 们 在 前 面 提 到 过 , 旋转 背后 的 意义 是 使 变量 在 某 个 主 成 分 上 的 载荷 最 大 化 , 这 样 可 以 减少 
(或 消灭 ) 主 成 分 之 间 的 相关 性 ， 有 助 于 对 主 成 分 的 解释 。 进 行 正 交 旋 转 的 方法 称 为 “方差 最 大 
法 ”。 还 有 其 他 非 正 交 旋转 方法 ， 这 种 方法 允许 主 成 分 ( 因子 ) 之 间 存 在 相关 性 。 如 何在 实际 工 
作 中 选择 旋转 方法 需要 参考 相关 文献 , 这 已 经 超出 了 本 书 范围 。 你 可 以 使 用 这 个 数据 集 做 一 些 实 
验 ， 但 我 认为 ， 无 法 做 出 明确 选择 时 ， 应 该 选择 正 交 旋转 作为 主 成 分 分 析 的 起 点 。 

要 想 进行 正 交 旋转 ， 依 然 要 使 用 principal () 函数 ， 语 法 要 稍 作 修改 。 我 们 设 定 使 用 5 个 主 
成 分 ， 并 需要 进行 正 交 旋转 。 如 下 所 示 : 


> pca.rotate <- principal(train.scale, nfactors = 5, rotate = 
"varimax") 


















































> pca.rotate 
Principal Components Analysis 


Call: principal(r = train.scale, nfactors = 5, rotate = "varimax") 
Standardized loadings (pattern matrix) based upon correlation 
matrix 

RC1 RC2 RC5 RC3 RC4 h2 u2 com 
Goals_For -0.21 0.82 0.21 0.05 -0.11 0.78 0.22 1.3 
Goals Against 0.88 -0.02 -0.05 0.21 0.00 0.82 0.18 1.1 
Shots_For -0.22 0.43 0.76 -0.02 -0.10 0.81 0.19 1.8 
Shots_Against 0.73 -0.02 -0.20 -0.29 0.20 0.70 0.30 1.7 
PP_perc -0.73 0.46 -0.04 -0.15 0.04 0.77 0.23 1.8 
PK_perc -0.73 -0.21 0.22 -0.03 0.10 0.64 0.36 1.4 
CF60_pp -0.20 0.12 0.71 0.24 0.29 0.69 0.31 1.9 
CR60_sh 0.35 0.66 -0.25 -0.48 -0.03 0.85 0.15 2.8 
OZFOperc_pp -0.02 -0.18 0.70 -0.01 0 0.53 O07 Tv2 
Give -0.02 0.58 0.17 0.52 0.10 0.65 0.35 2.2 
Take 0.16 0.02 0.01 0.90 -0.05 0.83 0.17 1.1 
hits -0.02 -0.01 0.27 -0.06 0.87 0.83 0.17 1.2 
blks 0.19 0.63 -0.18 0.14 0.47 0.70 0.30 2.4 


SS loadings 2.69 2.33 1.89 1.55 1.16 
Proportion Var 0.21 0.18 0.15 0.12 0.09 
Cumulative Var 0.21 0.39 0.53 0.65 0.74 
Proportion Explained 0.28 0.24 0.20 0.16 0.12 
Cumulative Proportion 0.28 0.52 0.72 0.88 1.00 
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输出 中 有 两 个 部 分 比较 重要 ， 第 一 部 分 就 是 5 个 主 成 分 中 每 个 主 成 分 的 变量 载荷 ， 分 别 标注 
为 RC1 至 RC5。 我 们 看 到 ， 对 于 第 一 个 主 成 分 ， 变 量 Goals_Against 和 Shots_Against 具 有 非 
常 高 的 正 载 荷 ， 而 PP_perc 和 PK_perc 具 有 高 的 负载 和 荷 。 对 于 第 二 个 主 成 分 ， 具 有 高 载荷 的 是 
Goals_For。 第 五 个 主 成 分 在 shots_For 、ff 和 ozFoperc_pp 上 具有 高 载荷 。 第 三 个 主 成 分 看 
上 去 只 与 变量 take 有 关系 ， 第 四 个 主 成 分 则 上 只 与 hits 有 关 。 下 面 看 一 下 第 二 个 重要 部 分 ， 就 是 
以 平方 和 SS loading 开 始 的 表格 。SS loading 中 的 值 是 每 个 主 成 分 的 特征 值 。 如 果 对 特征 值 进行 标 
准 化 ， 就 可 以 得 到 Proportion Explained 行 。 你 应 该 已 经 猜 到 ， 这 一 行 表 示 的 是 每 个 主 成 分 解释 的 
方差 的 比例 。 可 以 看 到 ， 对 于 旋转 后 的 5 个 主 成 分 能 够 解释 的 所 有 方差 ， 第 一 个 主 成 分 可 以 解释 
其 中 的 28%。 回忆 一 下 前 面 提 到 的 经 验 原则 , 你 选择 的 主 成 分 应 该 至 少 解 释 大 约 70% 的 全 部 方差 。 
查看 Cumulative Var 行 可 以 知道 ， 这 5 个 旋转 后 的 主 成 分 可 以 解释 74% 的 全 部 方差 。 所 以 我 们 可 以 
充满 信心 地 认为 ,已 经 找到 了 合适 数量 的 主 成 分 ， 可 以 进行 下 一 步 的 建 模 工 作 了 。 












































9.3.3 ”根据 主 成 分 建立 因子 得 分 


现在 检查 旋转 后 的 主 成 分 载荷 , 并 将 其 作为 每 个 球 队 的 因子 得 分 。 这 些 得 分 说 明了 每 个 观测 
( 在 我 们 的 案例 中 是 NHL 球 队 ) 与 旋转 后 的 主 成 分 的 相关 程度 。 查 看 得 分 并 将 其 保存 到 数据 框 ， 
因为 要 使 用 它们 进行 回归 分 析 : 


> pca.scores <- data.frame (pca.rotates$sscores) 








> head(pca.scores) 


RC1 RC2 RC5 RC3 RC4 
-2.21526408 0.002821488 0.3161588 -0.1572320 1.5278033 
0.88147630 -0.569239044 -1.2361419 -0.2703150 -0.0113224 
0.10321189 0.481754024 1.8135052 -0.1606672 0.7346531 
-0.06630166 -0.630676083 -0.2121434 -1.3086231 0.1541255 
1.49662977 1.156905747 -0.3222194 0.9647145 -0.6564827 
-0.48902169 -2.119952370 1.0456190 2.7375097 -1.3735777 


得 到 每 个 球 队 在 每 个 因子 上 的 得 分 , 这 些 得 分 的 计算 非常 简单 , 每 个 观测 的 变量 值 乘 以 载荷 
然后 相 加 即 可 。 现 在 可 以 将 啊 应 变量 ( ppg ) 作为 一 列 加 入 数据 : 


ARODPp 


> pca.scores$ppg <- train$ppg 


做 完 这 项 工作 之 后 ， 即 可 开始 建 模 预 测 。 


9.3.4 回归 分 析 


要 完成 这 部 分 内 容 ， 只 需 重复 第 2 章 中 的 步骤 和 代码 。 如 果 你 没有 学 习 第 2 章 , 那么 请 回 过 头 
去 学 习 一 下 ,这 样 才能 看 懂 下 面 的 输出 结 


通过 1m( ) 函数 建立 线性 模型 ,使 用 所 有 因子 作为 输入 ， 然 后 查看 结果 摘要 : 
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> nhl.lm <- lm(ppg ~ ., data = pca.scores) 
> summary (nhl .1m) 


Call: 
lm(formula = ppg ~ ., data = pca.scores) 


Residuals: 
Min 1Q Median 3Q Max 
-0.163274 -0.048189 0.003718 0.038723 0.165905 


Coefficients: 
Estimate Std. Error 七 value Pr(>|t|) 

(Intercept) L111339 0.015752 70.551 < 2e-16 *** 

RC1 -0.112201 0.016022 -7.003 3.06e-07 *** 

RC2 0.070991 0.016022 4.431 0.000177 *** 

RC5 0.022945 0.016022 1.432 0.164996 

RC3 -0.017782 0.016022 -1.110 0.278044 

RC4 -0.005314 0.016022 -0.332 0.743003 

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.” 0.1 “*” 1 


Residual standard error: 0.08628 on 24 degrees of freedom 
Multiple R-squared: 0.7502, Adjusted R-squared: 0.6981 
F-statistic: 14.41 on 5 and 24 DF, p-value: 1.446e-06 


好 消息 是 , 我 们 的 整体 模型 在 统计 上 是 高 度 显 著 的 , p 值 为 1.446e -06, 修正 R 方 几乎 是 70%。 
坏 消息 是 ， 有 3 个 主 成 分 是 不 显著 的 。 可 以 简单 处 理 ， 选 择 将 其 保留 在 模型 中 。 但 是 我 们 先 看 看 
如 果 把 它们 排除 出 模型 ， 只 保留 RC1 和 RC2， 会 发 生 什么 : 









































> nhl.lm2 <- lm(ppg ~ RC1 + RC2, data = pca.scores) 





> summary (nhl .1m2) 


Call: 
lm(formula = ppg ~ RC1 + RC2, data = pca.scores) 


Residuals: 
Min 1Q Median 3Q Max 
-0.18914 -0.04430 0.01438 0.05645 0.16469 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 1.11133 0.01587 70.043 < 2e-16 *** 
RC1 -0.11220 0.01614 -6.953 1.8e-07 *** 
RC2 0.07099 0.01614 4.399 0.000153 *** 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.” 0.1 “*” 1 


Residual standard error: 0.0869 on 27 degrees of freedom 
Multiple R-squared: 0.7149, Adjusted R-squared: 0.6937 
F-statistic: 33.85 on 2 and 27 DF, p-value: 4.397e-08 
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模型 还 是 能 得 到 一 个 几乎 一 样 的 修正 R 方 (69.37% ) 值 ， 因 子 的 系数 在 统计 上 也 是 显著 的 。 
诊断 测试 的 细节 就 不 介绍 了 ， 代 之 以 统计 图 来 更 加 深入 地 进行 分 析 。 可 以 通过 R 基 础 包 中 的 图 形 
办 6E 生 成 一 张 散 点 图 ， 查 看 预测 值 和 实际 值 ( 所 有 球 队 的 积分 ) 之 间 的 关系 。 如 下 所 示 : 
> plot (nhl .lm2$fitted.values, trains$sppg, 


main="Predicted versus Actual", 
xlab="Predicted",ylab="Actual") 





























述 命 令 输 出 如 下 。 
Predicted versus Actual 
Predicted 
这 张 图 证 实 , 我 们 的 模型 在 使 用 两 个 因子 预测 球 队 的 比赛 结果 方面 表现 得 非常 好 , 它 也 凸显 
了 主 成 分 和 球 队 积分 之 间 存 在 强烈 的 线性 相关 性 。 再 进一步 , 使 用 ggplot2 包 生成 一 张 带 有 球 队 名 














字 的 散 点 图 。 唯 一 的 问题 是 ,这 个 函数 功能 非常 强大 , 里 面 的 设置 非常 多 。 有 很 多 在 线 资源 可 以 
为 你 指点 迷津 ,但 是 下 面 的 代码 可 以 帮助 你 快速 实现 。 首 先生 成 基准 图 ， 并 将 它 赋 给 一 个 名 为 p 
的 对 象 ， 然 后 添加 各 种 绘图 功能 。 




















> trains$spred <- round(nhl.lm2s$fitted.values, digits = 2) 
> p <- ggplot (train, aes(x = pred, 

Y = ppg, 

label = Team)) 


> p+ geom point() + 


geom text(size = 3.5, hjust = 0.1, vjust = -0.5, angle = 0) + 
xlim(0.8, 1.4) + ylim(0.8, 1.5) + 
stat_smooth(method = "lm", se = FALSE) 


述 命令 输出 如 下 页 图 。 
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建立 对 象 p 的 代码 非常 简单 ， 只 需 指定 数据 村 
用 哪个 变量 作为 标签 即 可 。 下 面 将 基准 
以 在 图 中 加 上 任何 需要 的 内 容 。 如 下 所 示 : 





> p+ geom point () + 


然后 设置 球 队 标签 的 显示 方式 。 需 要 多 试 几 次 ， 以 确定 合适 的 字体 大 小 和 位 置 : 





geom 七 ext () + 


匡 


一 ， 


图 美化 一 


在 aes () 中 设 定 X 轴 和 Y 轴 的 变量 ， 并 指定 使 
下 ， 先 加 上 数据 点 。 在 代码 中 使 用 + 操作 符 ， 可 





在 这 之 后 ， 可 以 设 定 X 轴 和 Y 轴 的 界限 ， 否 则 统计 图 中 就 不 会 出 现 落 到 界限 之 外 的 那些 观测 





我 认为 可 以 这 样 解释 这 张 图 : 位 于 斜 线 下 方 的 球 队 发 挥 欠 佳 , 位 于 和 斜 线 上 方 的 球 队 则 超过 


点 O 如 下 所 示 » 
xlim() + ylim() + 
最 后 ， 添 加 一 条 不 带 标 准 差 的 最 佳 拟 合 线 : 
stat_smooth(method = "lm", se = FALSE) 


另 一 项 分 析 内 容 是 绘制 出 球 队 及 其 因子 得 分 之 间 的 关系 ， 这 样 的 
ggplot () 来 帮助 分 析 。 以 前 面 的 示例 代码 为 基础 ， 修 改 设置 并 查看 结 


> pca.scores$Team <- trainsTeam 


称 为 双 标 图 。 依 然 使 用 


人 ~: 








> p2 <- ggplot (pca.scores, aes(x = RC1, y = RC2, label = Team) ) 
> p2 + geom point() + 
geom text(size = 2.75, hjust = .2, vjust = -0.75, angle = 0) + 
xlim(-2.5, 2.5) + ylim(-3.0, 2.5) 
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上 述 命令 输出 如 下 。 
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可 以 看 出 ，X 轴 是 球 队 在 RCI 上 的 得 分 ,Y 轴 则 是 RC2 上 的 得 分 。 看 一 下 “ 阿 纳 海 姆 小 鸭 队 ”， 


它 在 RCI 上 的 分 数 最 低 ， 在 RC2 上 的 分 数位 于 中 游 。 考 虑 一 下 ， 这 意味 着 什么 。 在 RC1 上 ， 以 多 
打 少 进 球 ( PP_perc ) 和 以 少 打 多 失 球 ( PK_perc ) 具有 负载 和 荷 ， 平 均 每 场 失 球 数 
(Goals_Against ) 具有 正 载 荷 ， 这 说 明 这 支 球 队 的 防守 组 织 得 非常 好 ,并 在 处 于 人 数 劣势 时 表 
现 得 很 好 。 顺 便 说 一 句 ,“ 匹 兹 保 企 的 队 ”最 终 获 得 了 这 赛季 的 斯 坦 利 杯 。 他 们 的 分 数 很 实在 ， 

但 也 没什么 出 奇 之 处 。 请 注意 ,这 支 球 队 在 赛季 初 有 个 墨 梦 般 的 开始 ,并 解雇 了 原来 的 教练 。 如 
果 对 他 们 上 半 赛 季 和 下 半 赛 季 的 表现 做 一 番 分 析 和 比较 ， 那 会 非常 有 意思 。 


像 之 前 做 过 的 那样 ， 你 还 可 以 评价 模型 误差 。 下 面 看 看 均 方 根 误差。 
































> sqrt (mean (nhlL.1m2$residuals^2) ) 
[1] 0.08244449 


这 些 工作 完成 之 后 , 看 看 这 个 模型 在 样本 外 数据 上 的 效果 。 需 要 加 载 测试 数据 ,通过 主 成 分 
预测 球 队 得 分 ， 然 后 基于 线性 模型 做 出 预测 。psych 包 中 的 predict () 郴 数 会 自动 对 测试 数据 进 
行 标准 化 : 








> test <- read.csv("NHLtest.csv") 
> test.scores <- data.frame (Predict (pca.rotate, test[, c(-1:-2)])) 


> test.scores$pred <- predict (nhl1.1m2，test.scores) 


我 觉得 应 该 和 前 面 一 样 , 将 结果 绘制 出 来 并 标 上 球 队 名 称 。 先 将 所 有 信息 放 在 一 个 数据 框 中 : 
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> test.scores$ppg <- testSppg 


> test .scoresS$Team <- test$Team 
然后 让 ggplot () 大显身手: 


> p <- ggplot (test.scores, aes(x = pred, 


Y = ppg, 
label = Team) ) 


> p+ geom _ point () + 
geom text(size=3.5, hjust=0.4, vjust = -0.9，angle = 35) + 
xlim(0.75, 1.5) + ylim(0.5, 1.6) + 
stat_smooth(method="lm", se=FALSE) 


述 命令 输出 如 下 。 





ppg 

















我 对 球 队 名 称 进行 了 缩写 ,使 这 幅 图 更 加 清晰 易 读 。 在 平均 每 场 得 分 上 ， 





“华盛顿 首都 ” 队 


一 马 当 先 ,“ 科 罗拉 多 雪崩 ” 队 则 嘱 陪 未 座 。 实际 上 , 在 我 采集 这 份 数 据 的 时 候 , “科罗拉多 雪崩 ” 
队 已 经 连续 输 掉 了 5 场 比赛 , 直到 他 们 通过 加 时 赛 击败 “ 卡 罗 莱 纳 飓风 ” 队 , 才 止 住 了 连 败 势头 。 


最 后 ， 再 检查 一 下 RMSE。 
> resid <- test.scores$ppg - test.scoresS$pred 


> sqrt (mean(resid^2) ) 
[1] 0.1011561 





与 样本 内 误差 0.08 比 起 来 ，0.1 的 样本 外 误差 并 不 坏 。 我 认为 ， 可 以 宣布 这 个 模型 是 有 效 的 。 





但 还 有 很 多 球 队 统计 数据 可 以 添加 到 模型 中 ,以 提高 预测 能 力 和 减 小 误差 。 我 会 一 直 致 力 于 完善 


这 个 模型 ,希望 你 也 同样 如 此 。 
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9.4 “小结 


本 章 再 次 讨论 了 无 监督 学 习 技 术 , 研究 了 主 成 分 分 析 , 介绍 其 概念 并 对 这 种 技术 进行 了 应 用 。 
我 们 研究 了 如 何 使 用 PCA 降 低 数 据 的 维度 和 提高 对 数据 的 理解 , 特别 当 数 据 具有 很 多 高 度 相关 的 
变量 时 。 然后, 我 们 在 一 个 来 自 美国 国家 冰球 联盟 的 真实 数据 集 上 应 用 了 这 种 技术 ,并 使 用 从 数 
据 集中 抽取 的 主 成 分 进行 了 回归 分 析 ， 以 预测 球 队 的 得 分 。 此 外 ,我们 还 介绍 了 对 数据 和 主 成 分 
进行 可 视 化 的 方法 。 

作为 一 种 无 监督 学 习 技术 , 主 成 分 分 析 需 要 一 定 的 判断 能 力 以 及 反复 实验 , 才能 得 到 被 商业 
伙伴 所 接受 的 最 优 解 。 尽管 如 此 , 主 成 分 分 析 依 然 是 一 种 可 以 挖 气 潜在 知识 并 支持 监督 式 学 习 的 
强大 技术 。 

下 一 章 将 介绍 如 何 使 用 无 监督 学 习 技 术 进行 购物 篮 分 析 和 实现 推荐 引 苟 , PCA 会 在 其 中 发 挥 
重要 作用 。 
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“要 想 使 你 的 业务 量 翻 一 番 ， 就 应 该 使 你 的 顾客 转化 率 翻 一 番 ， 这 上 比 使 客流 量 翻 一 
番 容 易 儿 了。 


一 一 杰 夫 ' 艾 斯 伯 格 ，BuyerLegend.com 首 席 执行 官 
“在 Whole Foods 超 市 中 ， 我 看 不 到 人 们 的 脸 上 有 笑容 。 





沃 伦 . 巴菲特 

如 果 有 人 没有 感受 到 本 章 讨论 的 技术 所 带 来 的 影响 , 那 他 一 定 是 生活 在 了 月 球 背 面 。 如 果 你 
访问 过 www.amazon.com， 或 在 www.netflix.com 上 看 过 电影 ， 或 者 访问 过 任何 一 个 零售 网 站 ， 肯 
定 会 经 常 看 到 一 些 名 词 ， 比 如 “相关 商品 ”“ 因 为 你 看 过 …… ”“ 购 买 了 x 的 顾客 也 购买 了 y”“ 癌 
您 推荐 ”等 ， 这些 名 词 随处 可 见 。 掌 握 了 你 在 系统 中 的 历史 信息 和 近期 记录 后 , 零售 商 可 以 使 用 
本 章 将 要 讨论 的 算法 来 增加 顾客 的 购物 次 数 和 购买 总 量 。 


























这 些 技术 可 以 分 为 两 类 : 关联 规则 和 推荐 引擎 。 关 联 规则 分 析 通 常 称 为 购物 篮 分 析 ， 因 为 我 
们 试图 发 现 人 们 会 同时 购买 哪些 商品 。 推荐 引擎 的 目的 是 基于 顾客 对 以 前 浏览 过 或 购买 过 的 商品 
的 评价 ， 向 他 们 推荐 可 能 感 兴趣 的 其 他 商品 。 

















另外 一 种 应 用 于 商业 的 技术 是 ， 对 你 在 购买 商品 或 使 用 服务 中 的 一 系列 行为 进行 理解 和 分 
析 ， 这 种 技术 称 为 序列 分 析 。 该 方法 的 一 个 常见 实例 就 是 ,理解 和 分 析 顾客 如 何在 各 种 网 页 和 链 
接 之 间 点 来 点 去 。 




















在 下 面 的 案例 中 ,我们 将 研究 如 何 使 用 R 实 现 这 样 的 算法 。 具 体 的 实现 细节 不 做 介绍 ， 因 为 
这 超出 了 本 书 范围 。 我 们 从 一 个 对 零售 商店 购物 习惯 的 购物 篮 分 析 开 始 , 然后 深入 研究 如 何 基 于 
网 站 评论 建立 推荐 引 敬 ， 最 后 分 析 用 户 在 网 页 之 间 的 序列 行为 。 
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10.1 购物 篮 分 析 简介 


购物 篮 分 析 是 一 项 数据 挖掘 技术 , 它 的 目标 是 找到 最 优 的 商品 与 服务 组 合 , 使 市 场 营销 人 员 
以 此 为 依据 提供 推荐 意见 ， 优 化 商品 摆 放 ， 制 定 营销 方案 ， 最 终 提 高 交叉 销售 。 简 而 言 之 ,， 它 的 
理念 就 是 识别 出 哪些 商品 放 在 一 起 更 好 ， 并 从 中 获 益 。 


你 可 以 把 这 种 分 析 结 果 视 为 某 种 if . . .then 语 句 。 如果 一 个 顾客 买 了 一 张 飞机 票 , 那么 他 就 
有 46% 的 可 能 性 在 旅馆 订 一 个 房间 ; 如果 他 确实 在 旅馆 订 了 一 个 房间 ,那么 他 就 有 33% 的 可 能 性 
租 一 辆 轿车 。 


然而 ,购物 得 分析 不 仅 能 用 于 销售 和 营销 ,还 可 以 用 于 欺诈 检测 和 医疗 保健 。 举 例 来 说 ,如 
果 一 个 患者 正在 按 A 方 案 进 行 治疗 ， 那 么 他 就 有 26% 的 可 能 性 会 表现 出 症状 X。 进 入 详细 讨论 之 
前 ， 先 看 几 个 将 会 出 现在 案例 中 的 术语 。 


D 项 集 : 数据 集中 一 个 或 多 个 项 目的 集合 。 

口 支持 度 : 包含 某 个 项 集 的 事务 在 整个 数据 中 的 比例 。 

口 置信 度 : 如 果 某 人 购买 了 x (或 做 了 x )， 那 么 他 就 会 购买 y ( 或 做 y ) 的 条 件 概率 ; x 被 称 
为 先导 或 左 侧 项 ，y 被 称 为 后 继 或 右 侧 项 。 
口 提升 度 : 它 是 一 个 比例 ，x 发 生 的 同时 发 生 y 的 支持 度 是 分 子 ， 分 母 是 x 和 y 在 相互 独立 的 情 
况 下 同时 发 生 的 概率 。 它 等 于 置信 度 /(x 的 概率 x y 的 概率 )。 举 例 来 说 ， 假 设 x 和 y 同 时 发 生 
的 概率 是 10%, x 发 生 的 概率 是 20%, y 发 生 的 概率 是 30%, 那么 提升 度 就 是 10%/(20% x 30%)， 
等 于 1.667%。 


在 R 中 ,可 以 用 来 进行 购物 篮 分 析 的 软件 包 是 arules: 挖 握 关 联 规则 和 频繁 集 。 这 个 R 包 提供 
了 两 种 不 同 的 关联 规则 发 现 方法 。 为 什么 对 一 种 技术 提供 两 种 方法 呢 ? 答案 很 简单 ， 如果 数 据 集 
规模 很 大 ， 那 么 检查 所 有 可 能 的 商品 组 合 将 非常 耗费 计算 成 本 。 这 个 R 包 支持 Apriori 算 法 和 
ECLATI 算 法 。 还 有 其 他 算法 可 以 进行 购物 篮 分 析 , 但 Apriori 最 常用 , 所 以 我 们 重点 讨论 这 种 算法 。 


Apriori 算 法 的 主要 原理 就 是 ， 如 果 一 个 项 集 是 频繁 集 ， 那 么 它 的 所 有 子 集 必 然 也 是 频 索 集 。 
最 小 频率 (支持 度 ) 是 由 分 析 者 在 执行 算法 之 前 确定 的 , 确定 了 最 小 支持 度 之 后 , 算法 将 按照 下 
面 的 步 又 运行 : 


口 使 4*=1 (项 数 ); 

口 按照 项 数 生成 大 于 等 于 最 小 支持 度 的 项 集 ; 

口 按照 E+ (1…n) 进 行 迭代 ， 删 除 那 些 不 频繁 ( 小 于 最 小 支持 度 ) 的 项 集 ; 
口 没有 新 的 频繁 集 产 生 时 ， 停 止 欠 代 。 


当 你 得 到 排 好 序 的 频繁 集 列表 之 后 , 可 以 通过 检查 置信 度 和 提升 度 来 继续 分 析 , 目的 是 发 现 
有 价值 的 关联 规则 。 
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10.2 ”业务 理解 


在 我 们 的 案例 中 ， 重 点 在 于 如 何 为 一 个 杂货 店 发 现 关联 规则 。 数 据 集 来 自 arules 包 ， 名 为 
Groceries。 这 个 数据 集 包 含 了 一 个 真实 杂货 店 的 30 天 交易 信息 ， 共 有 9835 条 购买 记录 。 所 有 售 出 
商品 被 分 成 169 类 ， 比 如 面包 、 葡 萄 酒 、 肉 类 等 。 

假设 我 们 是 一 家 刚刚 起 步 的 小 啤酒 三, 正在 努力 提高 在 这 个 杂货 店 的 销售 量 。 我 们 试图 弄 清 
楚 潜 在 顾客 在 购买 啤酒 的 同时 还 会 购买 什么 商品 。 这 种 知识 可 以 帮助 我 们 找 出 商品 在 商店 中 的 正 
确 摆 放 方 式 ， 或 支持 交叉 销售 活动 。 
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10.3 ”数据 理解 和 数据 准备 
为 了 进行 分 析 ， 只 需 加 载 两 个 R 包 ， 以 及 Groceries 数 据 集 : 





> library (arules) 
> library (arulesViz) 
> data(Groceries) 
> head (Groceries) 


transactions in sparse format with 
9835 transactions (rows) and 
169 items (columns) 


> str(Groceries) 
Formal class 'transactions' [package "arules"] with 3 slots 
..@ data :Formal class 'ngCMatrix' [package "Matrix"] with 5 
slots 
..@i : int [1:43367] 13 60 69 78 14 29 98 24 15 29 ... 
..@p : int [1:9836] 0 4 7 8 12 16 21 22 27 28 ... 
Q@ D 
@ 





im : int [1:2] 169 9835 
Dimnames:List of 2 
..$ : NULL 
..$ : NULL 
..@ factors : list() 
..@ itemInfo :'data.frame': 169 obs. of 3 variables: 
..$ labels: chr [1:169] "frankfurter" "sausage" "liver loaf" 


"ham" ... 
..$ level2: Factor w/ 55 levels "baby food","bags",..: 44 44 
44 44 44 44 
44 42 42 41 ... 
..$ levell: Factor w/ 10 levels "canned food",..: 6 666656 
6 6 6 6 


..@ itemsetInfo:'data.frame': 0 obs. of 0 variables 
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这 个 数据 集 被 结构 化 为 一 个 稀 玻 矩阵 对 象 ， 称 为 事务 类 。 


如 果 数 据 集结 构 是 事务 类 型 ， 那 么 标准 的 查看 数据 方法 将 会 失效 ， 但 是 arules 包 为 我 们 提供 
了 查看 数据 的 其 他 方法 。 顺 便 说 一 下 ,如 果 你 有 一 个 数据 框 或 矩阵 想 转换 成 事务 类 型 ， 可 以 使 用 
as () 函数 轻松 完成 。 














下 面 的 代码 仅仅 为 了 演示 ， 不 要 实际 运行 : 


0 > # transaction.class.name <- 


as(current .data.frame, "transactions"). 


查看 数据 的 最 好 方式 是 ， 使 用 arules 包 中 的 itemFrequencyPlot () 函数 生成 项 目 频率 图 。 
你 需要 指定 事务 数据 集 、 图 中 要 显示 的 具有 最 高 频率 的 项 目 数 , 以 及 要 使 用 项 目 绝对 频率 还 是 相 
对 频率 。 先 使 用 绝对 频率 ， 看 看 频率 最 高 的 10 个 项 目 : 

















































































































> itemFrequencyPlot (Groceries, topN = 10，type = "absolute") 
\、 人 人 A、 人 人 
上 述 命令 输出 如 下 。 
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人 们 购买 最 多 的 项 目 是 “全 脂 牛奶 ”， 在 9836 条 事务 记录 中 占 了 大 约 2500 条 。 如 果 想 看 看 相 
对 频率 最 高 的 前 15 个 项 目 ， 可 以 使 用 下 面 的 代码 : 








> itemFrequencyPlot (Groceries, topN = 15) 


上 述 代码 输出 如 下 页 图 。 
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我 们 看 到 ， 啤 酒 在 杂货 店 “ 最 常 被 购买 的 商品 ”中 只 排 在 第 13 位 (瓶装 ) 和 第 15 位 ( 钢 装 ) 
只 有 不 到 10% 的 购买 记录 中 包括 瓶装 啤酒 和 饶 装 啤酒 。 


仅 为 练习 的 话 ， 知 道 这 些 就 足够 了 ， 下 面 开 始 建 模 和 评价 。 














10.4 ”模型 构建 与 模型 评价 


我 们 从 对 全 体 关联 规则 的 数据 挖掘 开始 , 然后 再 转 到 关于 啤酒 的 特定 规则 。 整 个 建 模 过 程 都 
使 用 Apriori 算 法 ， 它 使 用 arules 包 中 的 apriori () 函数 。 使 用 这 个 函数 时 ， 需 要 确定 的 两 个 重要 
部 分 是 数据 集 和 参数 组 。 对 于 参数 组 ， 你 需要 自己 做 出 决定 ， 确 定 最 小 文 持 度 、 置 信 度 以 及 项 
集中 的 最 大 项 数 和 最 小 项 数 。 使 用 项 目 频率 图 和 反复 试 错 法 ， 我 们 设 定 最 小 文 持 度 为 11000， 
最 小 置信 度 为 90%。 另 外 ， 设 置 项 集中 的 最 大 项 数 为 4。 下 面 的 代码 可 以 生成 一 个 对 象 ， 将 其 命 
名 为 rules: 


> rules <- apriori(Groceries，Pparameter = list(supp = 0.001, conf = 
0.9, maxlen=4)) 


调用 这 个 对 象 ， 可 以 看 到 算法 产生 多 少 条 关联 规则 : 


















































> rules 
set of 67 rules 


有 多 种 方法 可 以 查看 规则 。 我 极力 推荐 通过 R 基 础 包 中 的 cptions () 函数 将 数字 的 小 数位 设 
置 为 2， 然 后 按照 提升 度 由 高 到 低 排 序 ， 查 看 最 前 面 的 5 条 关联 规则 : 





> options(digits = 2) 


> rules <- sort(rules, by = "lift", decreasing = TRUE) 


> inspect (rules[1:5]) 
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lhs rhs support confidence 1ift 

1 {liquor, red/blush wine} => {bottled beer} 0.0019 
0.90 11.2 

2 {root vegetables, butter, cream cheese } => {yogurt} 
0.0010 0.91 6.5 

3 {citrus fruit, root vegetables, soft cheese}=> {other vegetables} 
0.0010 1.00 5.2 

4 {pip fruit, whipped/sour cream, brown bread}=> {other vegetables} 
0.0011 1.00 5.2 

5 {butter,whipped/sour cream, soda} => {other vegetables} 
0.0013 0.93 4.8 




















请 看 , 具有 最 高 提升 度 的 关联 规则 是 , 购买 了 白酒 和 红 葡 萄 酒 的 顾客 也 很 可 能 购买 瓶装 啤酒 。 
我 必须 说 这 纯 属 巧合 ， 绝 对 不 是 故意 的 。 就 像 我 经 常 说 的 ， 干 得 好 不 如 干 得 巧 。 这 条 规则 的 支持 
度 只 有 1.9/1000， 说 明 这 种 购买 行为 并 不 常见 。 


也 可 以 按照 支持 度 和 置信 和 度 排 序 。 下 面 按照 by=confiaqence 降 序 排列 ， 前 5 条 关联 规则 如 下 
所 示 : 






































> rules <- sort(rules, by = "confidence", decreasing = TRUE) 


> inspect (rules[1:5]) 
lhs rhs support confidence 1ift 

1 {citrus fruit, root vegetables, soft cheese}=> {other vegetables} 
0.0010 1 52 

2 {pip fruit, whipped/sour cream, brown bread}=> {other vegetables} 
0.0011 1 5.2 

3 {rice, sugar} => {whole milk} 0.0012 1 39 

4 {canned fish, hygiene articles} => {whole milk} 0.0011 1 3.9 

5 {root vegetables, butter, rice} => {whole milk} 0.0010 1 3.9 








由 上 可 知 ， 这 些 交 易 记录 的 置信 和 度 为 100%。 下 面 专门 研究 一 下 与 啤酒 有 关 的 交易 。 可 以 用 
arules 包 中 的 crossTable() 困 数 建立 一 个 交叉 表 ， 然 后 按照 需求 进行 研究 。 第 一 步 就 是 根据 数 
据 集 建 立交 叉 表 : 








> tab <- crossTable(Groceries) 
表格 建立 之 后 ， 检 查 商品 之 间 的 共同 购买 关系 。 先 看 看 表格 的 前 3 行 和 前 3 列 : 


> tab[1:3, 1:3] 
frankfurter sausage liver loaf 





frankfurter 580 99 7 
sausage 99 924 10 
liver loaf 7 10 50 








可 以 看 到 ， 在 9835 笔 交易 记录 中 ， 顾 客 们 只 购买 了 50 次 肝肠 。 此 外 ， 顾 客 购买 了 924 次 香肠 
时 ， 有 10 次 同时 购买 了 肝肠 。( 我 对 肝肠 的 销量 太 失 望 了 ， 只 能 这 么 计算 才能 使 销量 好 看 一 点 ! ) 
如 果 想 专门 看 看 某 种 商品 ， 可 以 指定 行 号 和 列 号 ， 也 可 以 简单 地 使 用 商品 名 : 


> table["bottled beer","bottled beer"] 
[1] 792 
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有 792 条 关于 瓶装 啤酒 的 交易 记录 。 看 看 人 们 购买 瓶装 啤酒 的 同时 , 购买 了 多 少 次 钠 半 啤酒 : 


> table["bottled beer","canned beer"] 
[1] 26 


我 早 就 预料 到 这 个 数字 会 很 小 ， 因 为 人 们 一 般 都 是 或 者 喝 瓶 装 的 啤酒 ， 或 者 喝 饶 装 的 啤酒 ， 
不 会 同时 喝 两 种 啤酒 。 我 就 特别 喜欢 瓶装 啤酒 。 如 果 遇 到 像 占领 华尔街 那样 的 狂暴 的 抗议 者 ， 啤 
酒 瓶 还 是 保护 自己 的 一 件 称 手 武 右 呢 。 


现在 可 以 生成 关于 瓶装 啤酒 的 关联 规则 了 。 依然 使 用 apriori () 函数 , 但 这 一 次 要 加 上 参数 
appearance 的 设 定 。 设 定 这 个 参数 的 意义 是 ,我们 需要 关联 规则 的 左 侧 项 是 能 够 提高 瓶装 啤酒 购 
买 率 的 那些 项 集 , 右 侧 项 就 是 瓶装 啤酒 。 在 下 面 的 代码 中 ,请 注意 我 调整 了 支持 度 和 置信 和 度 的 数 
值 ， 你 也 可 以 根据 需要 随时 调整 : 

































































> beer.rules <- apriori(data = Groceries, parameter = list(support 
= 0.0015, confidence = 0.3), appearance = list(default = "lhs", 
rhs = "bottled beer")) 
> beer.rules 
set of 4 rules 


只 找 出 4 条 关联 规则 。 我 们 已 经 看 过 其 中 一 条 , 下 面 看 看 其 他 3 条 规则 , 按照 提升 度 降序 排列 : 





> beer.rules <- sort(beer.rules, decreasing = TRUE, by = "lift") 


> inspect (beer.rules) 

lhs rhs Support confidence 1ift 

{liquor, red/blush wine} => {bottled beer} 0.0019 0.90 11.2 

{liquor} => {bottled beer} 0.0047 0.42 5.2 

{soda, red/blush wine} => {bottled beer} 0.0016 0.36 4.4 

{other vegetables, red/blush wine} => {bottled beer}0.0015 0.31 
3.8 


在 所 有 规则 中 ,对 瓶装 啤酒 的 购买 都 与 酒 类 有 关 , 不 是 日 酒 就 是 红 葡 葡 酒 , 这 也 没什么 可 惊 
讶 的 。 有 趣 的 是 , 白 葡萄 酒 不 在 其 中 。 下 面 更 深入 地 看 看 瓶装 啤酒 和 不 同 种 类 的 葡萄 酒 之 间 的 共 
同 购买 关系 : 


> tab["bottled beer", "red/blush wine"] 
[1] 48 


和 ODP 
































> tab["red/blush wine", "red/blush wine"] 
[1] 189 


> 48/189 
[1] 0.25 


> tab["white wine", "white wine"] 
[1] 187 


> tab["bottled beer", "white wine"] 
[1] 22 
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> 22/187 

[1] 0.12 

这 是 个 很 有 趣 的 事实 ， 购 买 红 和 葡萄酒 时 ， 有 25% 的 顾客 会 同时 购买 瓶装 啤酒 ; 但 购买 白 葡萄 
酒 时 ， 只 有 12% 的 顾客 会 同时 购买 瓶装 啤酒 。 当 然 ， 我 们 不 知道 为 什么 会 这 样 , 但 这 可 以 帮助 我 
们 确定 如 何在 杂货 店 中 摆 放 产品 。 进 行 下 一 部 分 内 容 之 前 ， 看 看 关联 规则 的 统计 图 ， 这 是 使 用 
arulesViz 包 中 的 plot () 函数 实现 的 。 


图 形 有 很 多 选项 可 以 设置 ,在 本 例 中 ,我 们 设 定 需要 点 线 图 ， 显示 关联 规则 提升 度 ， 并 且 用 
颜色 深浅 表示 置信 和 度 。 如 下 所 示 : 
























































> plot (beer.rules, method = "graph", measure = "lift", shading = 
"confidence") 


上 述 命令 输出 如 下 。 





Graph for 4 rules ee 
size: Iift (3.801 - 11.235) 
color: confidence (0.306 - 0.905) 


soda 


other vegetables red/blush wine 


bottled beer 


全 ，” 


liquor 























由 上 图 可 知 ,“ 白 酒 / 红 葡萄 酒 ”提供 了 最 高 提升 度 和 置信 和 度 ， 分 别 由 圆 点 的 大 小 和 颜色 深浅 
表示 。 


在 这 个 简单 的 案例 分 析 中 ， 我 们 展示 了 使 用 R 进 行 购物 篮 分 析 的 便捷 性 。 购 物 篮 分 析 可 以 和 
很 多 其 他 统计 分 析 技 术 一 起 使 用 ， 比 如 客户 细 分 、 纵 向 购买 历史 数据 分 析 等 ,它们 可 以 用 于 广告 
展示 、 协 同 促销 等 商业 领域 。 下 面 ,我 们 进一步 讨论 顾客 对 商品 进行 评价 的 情况 ,学 习 如 何 构 建 
和 测试 推荐 引擎 。 
































10.5 推荐 引擎 简介 
我 们 将 集中 讨论 用 户 对 以 前 浏览 过 或 购买 过 的 商品 进行 排名 或 评价 的 情况 。 推 荐 系统 的 设计 
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有 两 种 主要 方式 : 协同 过 滤 和 基于 内 容 的 推荐 ( Ansari 、Essegaier 与 Kohli ，2000 )。 我 们 主要 讨 
论 前 一 种 方式 ， 因 为 这 就 是 将 要 使 用 的 R 包 recommenderlab 的 主要 功能 。 


至 于 基于 内 容 的 推荐 方法 , 它 的 理念 是 将 用 户 偏好 与 商品 属性 联系 在 一 起 。 对 于 电影 和 电视 
剧 推荐 来 说 ， 商 品 属性 就 是 体裁 、 演 员 表 和 故事 情节 等 。 使 用 这 种 方法 的 话 ， 推 荐 完全 是 基于 用 
户 的 评价 给 出 的 , 与 其 他 任何 人 的 评价 都 没有 关系 。 基 于 内 容 的 推荐 方法 的 优点 是 : 加 入 一 个 新 
项 目 时 ， 它 如 果 与 某 个 用 户 档案 中 的 兴趣 偏好 相符 ， 就 会 被 推荐 给 这 个 用 户 ， 而 不 必 等 到 其 他 用 
户 对 它 进行 评价 之 后 ( 这 就 是 所 谓 的 “第 一 评价 ”问题 )。 但 是 ， 基 于 内 容 的 推荐 方法 在 可 用 内 
容 比 较 少 时 会 遇 到 问题 ， 有 时 是 领域 问题 有 时 发 生 在 新 用 户 进入 系统 的 时 候 。 这 样 就 会 导致 不 
唯一 的 推荐 ， 也 就 是 糟糕 的 推荐 。( Lops、Gemmis 与 Semeraro，2011 ) 


在 协同 过 滤 推 荐 方法 中 , 推荐 是 基于 数据 库 中 一 些 或 全 部 人 员 提 供 的 多 条 评价 进行 的 。 从 本 
质 上 来 说 ， 这 种 方法 利用 的 是 群体 的 智慧 。 


对 于 协同 过 滤 ， 我 们 重点 讨论 以 下 4 种 方法 : 


口 基于 用 户 的 协同 过 小 
口 基于 项 目的 协同 过 滤 
口 奇异 值 分 解 
口 主 成 分 分 析 


讨论 实际 的 商业 案例 之 前 ， 先 简单 介绍 这 几 种 方法 。 还 要 注意 ，recommenderlab 包 不 是 作为 
一 种 实际 的 实现 工具 来 设计 开发 的 ， 它 是 一 种 实验 工具 ， 你 既 可 以 使 用 它 研 究 recommenderlab 包 
提供 的 算法 ， 也 可 以 实验 你 自己 想 要 研究 的 其 他 算法 。 


10.5.1 基于 用 户 的 协同 过 滤 


在 基于 用 户 的 协同 过 滤 算 法 中 , 先 找到 与 用 户 相似 的 近邻 ,然后 将 这 些 近邻 的 评价 综合 起 来 
产生 一 个 推荐 ,将 其 中 未 被 用 户 发 现 的 部 分 推荐 给 用 户 ( Hahsler，2011 )。 可 以 通过 KNN 找 出 与 
我 们 要 推荐 的 用 户 最 相似 的 近邻 ， 也 可 以 使 用 带 有 最 小 阅 值 的 其 他 相似 度 测量 方式 。 
recommenderlab 包 提供 了 两 种 相似 度 测量 方式 : 皮尔 撑 相关 系数 和 余弦 相似 度 。 我 不 介绍 这 些 测 
量 方式 的 公式 ， 因 为 recommenderlab 包 的 说 明文 档 中 已 经 讲 得 很 清楚 了 。 


确定 了 寻找 近邻 的 方式 之 后 , 算法 通过 计算 相似 度 确定 近邻 。 计 算 相似 度 时 ， 只 使 用 该 用 户 
与 近邻 共同 评价 了 的 项 目 。 然 后 通过 某 种 评分 方式 ( 比如 简单 地 求 平均 数 )， 将 近邻 的 评价 综合 
起 来 ， 为 用 户 预 测 某 个 项 目 上 的 评分 。 

来 看 一 个 简单 的 例子 。 下 表 共 有 6 个 独立 用 户 对 4 部 电影 进行 了 评价 ， 只 有 我 没有 评价 《疯狂 
的 麦克 斯 》 设 £= 1， 那 么 我 的 最 近邻 就 是 Homer，Bart 次 之 ; 尽管 在 不 喜欢 《复仇 者 联盟 》 这 一 
点 上 ，Flanders 和 我 一 模 一 样 。 所 以 ， 使 用 Homer 对 《疯狂 的 麦克 斯 》 的 评价 (4 分 ) 来 预测 我 对 
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这 部 电影 的 评分 也 是 4 分 。 








《复仇 者 联盟 》 《美国 狙击 手 》 《悲惨 世界 》 《疯狂 的 麦克 斯 》 
Homer 3 地 3 4 
Marge 5 2 9 3 
Bart 5 5 1 4 
Lisa 5 1 a] 2 
Flanders 1 1 4 1 
我 1 5 2 








有 很 多 方式 可 以 对 数据 进行 加 权 和 控制 偏差 。 举 例 来 说 ，Flanders 和 其 他 用 户 相 比特 别 喜 欢 
打 低 分 , 所 以 要 对 他 的 打分 进行 规范 化 , 他 在 某 个 项 目 上 的 新 评分 等 于 原 评分 减 去 他 在 所 有 项 目 
上 的 评分 的 均值 。 


基于 用 户 的 协同 过 滤 算 法 的 缺点 是 , 为 了 计算 所 有 用 户 的 相似 度 , 整个 数据 库 必须 驻 留 在 内 
存 中 ， 这 在 计算 能 力 和 时 间 上 都 是 一 笔 很 大 的 开销 。 











10.5.2 ”基于 项 目的 协同 过 滤 


你 可 能 已 经 猜 到 了 , 基于 项 目的 协同 过 滤 算 法 在 进行 推荐 时 使 用 的 是 项 目 之 间 的 相似 度 ， 而 
不 是 用 户 之 间 的 相似 度 。 这 种 方法 背后 的 假设 是 用 户 更 倾向 于 那些 和 他 们 喜欢 的 其 他 项 目 类 似 的 
项 目 (Hahsler，2011 )。 模 型 是 通过 计算 所 有 项 目 之 间 的 两 两 相似 度 建立 起 来 的 。 常 用 的 相似 度 
测量 方式 是 皮尔 逊 相关 系数 和 余弦 相似 度 。 为 了 减 小 相似 度 和 矩阵 的 规模 ， 可 以 设 定 只 使 用 k 个 最 
相似 的 项 目 。 但 是 ,对 近邻 数目 的 限制 会 明显 降低 正确 率 ， 导 致 基于 项 目的 协同 过 滤 算 法 的 性 能 
劣 于 基于 用 户 的 协同 过 滤 算 法 。 


还 是 看 一 下 前 面 那 个 简单 的 例子 ， 从 下 表 可 知 ， 如 果 k= 1， 那 么 与 《疯狂 的 麦克 斯 》 最 相似 
的 项 目 是 《美国 狙击 手 》 于是， 可 以 使 用 我 对 《美国 狙击 手 》 的 评价 来 预测 我 对 《疯狂 的 麦克 
斯 》 的 评价 ， 如 下 所 示 。 
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《复仇 者 联盟 》 《美国 狙击 手 》 《悲惨 世界 》 《疯狂 的 麦克 斯 》 
Homer 3 9 3 4 
Marge 5 2 S 3 
Bart 5 5 1 4 
Lisa 3 1 5 2 
Flanders 1 1 4 1 
我 1 ED 2 ? 


10.5.3 ”奇异 值 分 解 和 主 成 分 分 析 
现在 ,包含 几 百 万 用 户 和 项 目的 数据 集 已 经 很 常见 了 。 尽 管 评价 矩阵 没有 那么 大 , 但 降低 维 
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度 还 是 有 好 处 的 。 降 维 的 方法 是 , 建立 一 个 更 小 的 , 但 能 反映 高 维和 矩阵 中 大 部 分 信息 的 低 维 矩 阵 。 
这 样 可 能 会 使 你 发 现 数据 中 重要 的 潜在 因子 和 相应 的 权重 , 这 些 因 子 也 许 会 揭示 一 些 评价 矩阵 中 
的 重要 信息 ， 比 如 电影 体裁 或 书籍 主题 。 尽 管 你 可 能 无 法 辨别 有 意义 的 因子 ,但 降 维 技术 也 可 以 
过 滤 数 据 中 的 噪声 。 


大 数据 集 的 一 个 问题 是 ， 你 很 可 能 得 到 一 个 稀 玻 和 矩阵， 其 中 很 多 评价 是 空白 的 。 降 维 技术 
的 缺点 是 不 能 支持 带 有 人 缺失 值 的 矩阵 ， 必 须 进 行 数据 填补 。 有 很 多 种 技术 可 以 用 来 尝试 完成 数 
据 填补 任务 ， 比 如 使 用 均值 、 中 位 数 或 0 来 代替 缺失 值 。recommenderlab 包 中 的 默认 方式 是 使 
用 中 位 数 。 

什么 是 奇异 值 分 解 ? 简单 地 说 , 它 就 是 一 种 矩阵 分 解 方法 ， 有 助 于 将 一 组 关联 特征 转换 为 不 
关联 的 特征 。 假 设 有 矩阵 A， 这 个 矩阵 可 以 分 解 为 3 个 矩阵 : U、D 和 V7。U 是 一 个 正 交 矩阵 ，D 
是 一 个 半 正 定 对 角 和 矩阵，V "是 一 个 正 交 抢 阵 的 转 置 。 现 在 看 一 下 评价 矩阵 ， 并 使 用 R 演 示 一 个 
例子 。 

首先 ， 重新 建立 评价 矩阵 ( 将 它 看 作 和 矩 阵 A， 如 下 代码 所 示 ): 


Sy ,ratings .<= GO(3; 57 07 57 1 7, 5, 2 5p Li Lr 57 3; 57 1 57.°4 
2 2 














































































































> ratingMat <- matrix(ratings, nrow = 6) 


> rownames (ratingMat) <- c("Homer", "Marge", "Bart", "Lisa", 
"Flanders", "Me") 


> colnames (ratingMat) <- c("Avengers", "American Sniper", "Les 
Miserable", "Mad Max") 


> ratingMat 
Avengers American Sniper Les Miserable Mad Max 





Homer 人 5 总 4 
Marge 5 2 5 3 0 
Bart 5 5 1 4 
Lisa 5 王 5 2 
Flanders 1 4 1 
Me 1 5 2 4 


然后 ， 使 用 R 基 础 包 中 的 sva() 函数 ， 将 评价 矩阵 分 解 为 上 面 所 说 的 3 个 矩阵 ，R 将 其 分 别 命 
名 为 gd 、$u 和 $v。 可 以 认为 Su 中 的 值 就 是 某 个 用 户 在 相应 因子 上 的 载荷 ，$v 中 的 值 是 某 个 电影 在 
相应 维度 上 的 载荷 ， 例 如 ,《 疯 狂 的 麦克 斯 》 在 维度 1 上 的 载荷 就 是 -0.116: 
































> svd <- svd(ratingMat) 


> svd 
$d 
[1] 16.1204848 6.1300650 3.3664409 0.4683445 
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[,1] [,2] [,3] [ ,4] 
[1,] -0.4630576 0.2731330 0.2010738 -0.27437700 
[2,] -0.4678975 -0.3986762 -0.0789907 0.53908884 
[3,] -0.4697552 0.3760415 -0.6172940 -0.31895450 
[4,] -0.4075589 -0.5547074 -0.1547602 -0.04159102 
[5,] -0.2142482 -0.3017006 0.5619506 -0.57340176 
[6,] -0.3660235 0.4757362 0.4822227 0.44927622 


$v 

[,1] [,2] [,3] [,4] 
[1,] -0.5394070 -0.3088509 -0.77465479 -0.1164526 
[2,] -0.4994752 0.6477571 0.17205756 -0.5489367 
[3,] -0.4854227 -0.6242687 0.60283871 -0.1060138 
[4,] -0.4732118 0.3087241 0.08301592 0.8208949 


可 以 很 容易 地 算出 通过 降 维 能 够 解释 多 少 方差 。 先 将 矩阵 $d 的 对 角 线 上 的 数字 相 加 , 然后 看 
看 只 用 两 个 因子 时 能 够 解释 多 少 方差 。 如 下 所 示 : 


> sum(svds$d) 
[1] 26.08534 











> Var <- sum(svdsd[1:2]) 


> var 
[1] 22.25055 


> var/sum(svds$d) 
[1] 0.8529908 


使 用 4 个 因子 中 的 两 个 ， 能 够 解释 整个 矩阵 85% 的 全 部 方差 。 可 以 算出 降 维 后 产生 的 评分 ， 
只 需 编 写 一 个 函数 。( 特别 感谢 www.stackoverflow.com 上 的 回复 者 ， 在 他 们 的 帮助 下 我 才能 实现 
这 个 函数 。) 这 个 函数 允许 我 们 指定 预测 中 要 使 用 的 因子 数量 , 它 将 Su、$v 和 $d 相 乘 来 算出 评分 : 
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> £1 <- function(x) { 
Score = 0 
for(i in 1l:n ) 
Score <- Score + svds$u[,i] %*% 七 (SvdSv[, Il) * svdsd[i] 
return(score)} 


设 n =4， 调 用 这 个 隐 数 ， 重 建 初始 的 评价 矩阵 : 


> f1(svd) 

[1] [,2 
[1,] 3 
[2,] 
[3,] 
[4,] 
[5,] 
[6,] 


PP 
Nb 必 UmPPUmW 一 
心 卢 有 必 山 必 一 
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同样 ， 设 n = 2， 看 看 输出 的 结果 : 


> "2 
> f1(svd) 
[,1] [,2] [1,3] [,4] 

[1,] 3.509402 4.8129937 2.578313 4.049294 
[2,] 4.823408 2.1843483 5.187072 2.814816 
[3,] 3.372807 5.2755495 2.236913 4.295140 
[4,] 4.594143 1.0789477 5.312009 2.059241 
[5,] 2.434198 0.5270894 2.831096 1.063404 
[6,] 2.282058 4.8361913 1.043674 3.692505 





通过 奇异 值 分 解 可 以 降低 数据 维度 ， 并 且 可 能 发 现 有 意义 的 潜在 因子 。 


你 完成 了 前 一 音 就 能 知道 ， 主 成 分 分 析 和 奇异 值 分 解 具 有 相似 的 作用 。 实 际 上 ,这 两 种 技术 
连接 非常 紧密 , 经 常 交互 使 用 , 因为 它们 都 用 到 了 矩阵 分 解 技术 。 那么, 它们 之 间 的 区 别 是 什么 ? 
简 言 之 ， 主 成 分 分 析 是 基于 协 方差 矩阵 的 ， 这 个 矩阵 是 对 称 的 。 要 进行 主 成 分 分 析 ， 需 要 先 从 数 
据 开始 ， 对 数据 进行 中 心 化 ， 然 后 计算 协 方差 矩阵 并 进行 对 角 化 ， 最 后 生成 主 成 分 。 

对 本 例 中 的 数据 应 用 第 9 章 中 的 部 分 主 成 分 分 析 人 代码， 看 看 有 什么 不 同 : 


> library (psych) 
































> pca <- principal (ratingMat, nfactors = 2, rotate = "none") 


> pca 
Principal Components Analysis 
Call: principal(r = ratingMat, nfactors = 2, rotate = 





"none") 
Standardized loadings (pattern matrix) based upon correlation 
matrix 

PC1 PC2 h2 u2 
Avengers -0.09 0.98 0.98 0.022 
American Sniper 0.99 -0.01 0.99 0.015 
Les Miserable -0.90 0.18 0.85 0.150 
Mad Max 0.92 0.29 0.93 0.071 

PC1 PC2 


SS loadings 2 1 
Proportion Var 0. 0 
Cumulative Var 0.66 0.94 
Proportion Explained 0. 0 
Cumulative Proportion 0. 1 


可 以 看 出 ， 主 成 分 分 析 更 容易 解释 。《 美 国 狙 击 手 》 和 《疯狂 的 麦克 斯 》 在 第 一 个 主 成 分 上 
具有 高 载荷 ， 在 第 二 个 主 成 分 上 ， 只 有 《复仇 者 联盟 》 具 有 高 载荷 。 此 外 ,这 两 个 主 成 分 能 够 解 
释 94% 的 数据 总 体 方差 。 


使 用 简单 的 评价 矩阵 介绍 协同 过 滤 技 术 之 后 ， 下 面 看 看 更 复杂 的 使 用 真实 数据 的 案例 。 
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10.6 ”推荐 系统 的 业务 理解 


从 字面 上 看 ， 这 个 商业 案例 是 个 笑话 。 更 确切 地 说 ， 是 一 大 波 笑话 ， 因 为 我 们 要 使 用 
recommenderlab 包 中 的 Jester5k 数 据 集 。 这 个 数据 集 包 含 了 5000 个 用 户 对 100 个 笑话 的 评价 ， 这 些 
数据 来 自 “ 小 丑 在 线 笑话 推荐 系统 ”( Jester Online Joke Recommender System )。 数 据 收集 时 间 是 
1999 年 4 月 ~2003 年 5 月 ， 所 有 用 户 都 至 少 评价 了 36 个 筑 话 ( Goldberg、Roeder、Gupta 与 Perkins， 
2001 )。 我 们 的 目标 是 比较 各 种 推荐 算法 ， 然 后 找 出 最 好 的 那 种 。 


既然 如 此 ,我 认为 非常 有 必要 从 一 个 关于 统计 学 家 的 笑话 开始 , 好 让 我 们 进入 状态 。 我 不 确 
定 如 何 对 这 个 笑话 进行 恰当 的 评价 ， 但 它 的 确 风靡 了 整个 互联 网 。 


一 位 统计 学 家 的 太太 生 了 一 对 双胞胎 ， 丈 夫 乐 坏 了 。 他 打 电 话 给 牧师 ， 牧 师 也 很 高 兴 。 "所 
六 把 他 们 带 到 教堂 来 , 我 要 给 他 们 举行 洗礼 ”, 牧师 说 。“ 不 行 , ”统计 学 家 答 道 ,“ 你 只 能 洗 一 人 
另 一 个 我 要 用 作对 照 组 。 


10.7 ”推荐 系统 的 数据 理解 与 数据 准备 


对 于 这 个 练习 ， 使 用 recommenderlab 即 可 。 这 个 程序 包 是 由 南 卫 理 工会 大 学 莱 尔 工程 实验 室 
开发 的 , 他 们 还 有 一 个 很 棒 的 站 点 ,上面 有 这 个 程序 包 的 支持 文档 (参见 https:Wlyle.smu.eduIDA/ 


recommenderlab/ ): 












































> library (recommenderlab) 
> data(Jester5k) 
> Jester5k 


5000 x 100 rating matrix of class 'realRatingMatrix' with 
362106 ratings. 


评价 矩阵 包含 362 106 个 评价 。 想 看 一 个 用 户 的 评价 列表 非常 容易 ， 我 们 看 看 第 10 个 用 户 的 











评价 。 下 面 的 输出 只 列 出 对 前 5 个 笑话 的 评价 ， 省 略 了 其 他 : 


> as(Jester5k[10,], "list") 
$u12843 

j1 j2 j3 j4 可 9 
-1.99 -6.89 2.09 -4.42 -4.90 ... 


还 可 以 看 看 某 个 用 户 ( 用 户 10 ) 的 平均 评价 和 某 个 笑话 〈 笑话 1 ) 的 平均 评价 ， 如 下 所 示 : 








> rowMeans (Jester5k[10,]) 
ul2843 
-1.6 


> colMeans (Jester5k[,1]) 
j1 
0.92 
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数据 理解 的 更 好 方式 是 画 出 这 些 评价 的 直方 图 , 应 该 查看 原始 数据 和 规范 化 后 数据 的 图 。 使 
用 recommenderlab 包 中 的 getRating () 函数 生成 统计 鸯 : 





> hist(getRatings (Jester5k), breaks=100) 


上 述 命令 输出 如 下 。 





Histogram of getRatings(Jester5k) 
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程序 包 中 的 normalize() 函数 可 以 对 数据 进行 中 心 化 ， 即 用 笑话 的 评价 减 去 该 笑话 所 有 评 
价 的 均值 。 从 上 图 可 以 看 到 ， 评价 的 分 布 稍稍 信 向 正 的 一 侧 , 规范 化 后 的 数据 也 反映 出 这 个 趋势 。 
可 以 看 到 结果 非常 像 正 态 分 布 ， 但 依然 稍稍 偏向 正 的 一 侧 ， 如 下 所 示 : 


> hist(getRatings (normalize(Jester5k)), breaks = 100) 


上 述 命令 输出 如 下 。 











Histogram of getRatings(normalize(Jester5k)) 
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进行 模型 构建 和 模型 评价 之 前 ， 可 以 先 使 用 recommenderlab 包 中 的 svaluationScheme () 
函数 轻松 建立 训练 集 和 测试 集 。 我 们 按照 80/20 的 比例 划分 训练 集 数据 和 测试 集 数据 。 如 果 你 愿 
意 ， 也 可 以 选择 k 折 交叉 验证 和 自助 抽样 法 。 此 外 还 要 设 定 ， 对 于 测试 集 数 据 ， 算 法 使 用 15 个 评 

















200 第 10 章 “购物 篮 分 析 、 推 荐 引擎 与 序列 分 析 








价 进行 预测 ， 其 余 的 评价 项 目 用 于 计算 误差 。 另 外 ， 还 要 设 定 “好 评价 ”的 冰 值 ， 本 例 设 为 大 于 
等 于 5: 


> set.seed(123) 


> e <- evaluationScheme(Jester5k, method="split", 
train=0.8, given=15, goodRating=5) 


> ee 
Evaluation scheme with 15 items given 
Method: 'split' with 1 run(s). 
Training set proportion: 0.800 
Good ratings: >=5.000000 
Data set: 5000 x 100 rating matrix of class 
'realRatingMatrix' with 362106 
ratings. 


建立 训练 集 数据 和 测试 集 数 据 之 后 ,开始 构建 模型 ,并 对 不 同 的 推荐 技术 进行 评价 : 基于 用 
户 的 推荐 、 基 于 项 目的 推荐 、 基 于 流行 度 的 推荐 、 奇 异 值 分 解 、 主 成 分 分 析 以 及 随机 推荐 。 


























让 





10.8 推荐 系统 的 建 模 与 评价 


如 果 要 建立 与 测试 推荐 引擎 ， 可 以 使 用 同一 个 函数 Recommendaer () ， 只 须 为 每 种 推荐 技术 
可 。 如 果 想 看 看 这 个 函数 的 具体 功能 和 对 应 于 6 种 推荐 技术 的 全 部 参数 设置 ， 可 以 查 

其 注册 信息 。 请 看 下 面 注册 信息 中 的 基于 物品 的 协同 过 滤 算 法 , 可 以 知道 默认 设置 是 使 用 余弦 
a i 了 ， 并 且 对 数据 进行 中 心 化 ， 缺 失 数据 不 用 0 进行 填补 : 
























































> recommenderRegistryS$get_entries (daataType = 
"realRatingMatrix") 


$ALS_realRatingMatrix 

Recommender method: ALS for realRatingMatrix 

Description: Recommender for explicit ratings based on latent 
factors, calculated by alternating least squares algorithm. 

Reference: Yunhong Zhou, Dennis Wilkinson, Robert Schreiber, Rong 
Pan (2008). 

Large-Scale Parallel Collaborative Filtering for the Netflix Prize, 
4th Int'l1 

Conf. Algorithmic Aspects in Information and Management, LNCS 5034. 

Parameters: 

normalize lambda n factors n iterations min item nr seed 

1 NULL 0.1 10 10 1 NULL 


$ALS_ implicit realRatingMatrix 

Recommender method: ALS implicit for realRatingMatrix 

Description: Recommender for implicit data based on latent factors, 

calculated by alternating least squares algorithm. 

Reference: Yifan Hu, Yehuda Koren, Chris Volinsky (2008). 
Collaborative 
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Filtering for Implicit Feedback Datasets, ICDM '08 Proceedings of 
the 2008 

Eighth IEEE International Conference on Data Mining, pages 263-272. 

Parameters: 

lambda alpha n _ factors n iterations min item nr seed 

10.1 10 10 10 1 NULL 


$IBCF_ realRatingMatrix 

Recommender method: IBCF for realRatingMatrix 

Description: Recommender based on item-based collaborative 
filtering. 

Reference: NA 

Parameters: 

k method normalize normalize sim matrix alpha na as zero 

1 30 "Cosine" "center" FALSE 0.5 FALSE 


$POPULAR realRatingMatrix 
Recommender method: POPULAR for realRatingMatrix 
Description: Recommender based on item popularity. 
Reference: NA 
Parameters: 

normalize aggregationRatings aggregationPopularity 

1 "center" new("standardGeneric" new("standardGeneric" 


$RANDOM realRatingMatrix 

Recommender method: RANDOM for realRatingMatrix 
Description: Produce random recommendations (real ratings). 
Reference: NA 

Parameters: None 


$RERECOMMEND realRatingMatrix 
Recommender method: RERECOMMEND for realRatingMatrix 
Description: Re-recommends highly rated items (real ratings). 
Reference: NA 
Parameters: 

randomize minRating 
1 1 NA 


$SVD_ realRatingMatrix 
Recommender method: SVD for realRatingMatrix 
Description: Recommender based on SVD approximation with column-mean 
imputation. 
Reference: NA 
Parameters: 

k maxiter normalize 

1 10 100 "center" 


$SVDF_realRatingMatrix 
Recommender method: SVDF for realRatingMatrix 
Description: Recommender based on Funk SVD with gradient descend. 
Reference: NA 
Parameters: 

k gamma lambda min epochs max epochs min improvement normalize 
1 10 0.015 0.001 50 200 le-06 "center" 
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Verbose 
1 FALSE 


$UBCF_ realRatingMatrix 

Recommender method: UBCF for realRatingMatrix 

Description: Recommender based on user-based collaborative 
filtering. 

Reference: NA 

Parameters: 

method nn sample normalize 

1 "cosine" 25 FALSE "center" 


下 面 是 在 训练 数据 上 使 用 这 6 种 推荐 技术 的 方法 。 为 简单 起 见 ， 全 部 使 用 算法 的 默认 设置 。 
你 也 可 以 调整 参数 设置 ， 方 法 很 简单 ， 将 要 改变 的 参数 作为 一 个 列表 放 在 函数 中 即 可 : 


> ubcf <- Recommender (getDatal(e,"train"), "UBCF") 


























> ibcf <- Recommender (getDatal(le,"train"), "IBCF") 

> svd <- Recommender (getData(e， "train"), "SVD") 

> popular <- Recommender (getData(e， "train"), "POPULAR") 
> pca <- Recommender (getDatal(le, "train"), "PCA") 


> random <- Recommender (getDatal(e, "train"), "RANDOM") 


现在 ,通过 predict () 函数 和 getData() 函数 ,分 别 使 用 6 种 技术 在 测试 集 上 使 用 15 个 项 目 
进行 预测 ， 如 下 所 示 : 








> user pred <- predict (ubcf, getData(e, "known"), type = "ratings") 
> item pred <- predict (ibcf, getData(le, "known"), type = "ratings") 
> svd pred <- predict(svd, getData(le, "known"), type = "ratings") 


> pop_pred <- predict (popular, getDatal(e, "known"), type 
"ratings") 


> rand pred <- predict (random, getDatal(le, "known"), type 
"ratings") 


使 用 calcPredictionAccuracy () 函数 计算 预测 值 和 测试 集 未 知 部 分 的 误差 。 计 算 结果 包 
括 所 有 方法 的 均 方 根 误差 ( RMSE )、 均 方 误差 ( MSE ) 和 平均 绝对 误差 (MAE )。 先 单独 看 一 下 
基于 用 户 的 协同 过 滤 的 误差 。 建 立 所 有 6 种 方法 的 对 象 之 后 ， 使 用 rpbind () 函数 建立 一 个 表格 ， 
并 使 用 rowname ( ) 函数 为 表格 的 每 一 行 命名 : 
































> P1 <- calcPredictionAccuracy (user pred, getDatal(e, 
"unknown")) 


> Pl1 
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RMSE MSE MAE 
4.5 19.9 3.5 


> P2 <- calcPredictionAccuracy(item pred, getDatal(le, "unknown")) 
> P3 <- calcPredictionAccuracy(svd pred, getDatal(e, "unknown")) 
> P4 <- calcPredictionAccuracy (pop_ pred, getData(e, "unknown")) 
> P5 <- calcPredictionAccuracy (rand pred, getDatal(e, "unknown")) 
> error <- rbind(P1, P2, P3, P4, P5) 


> rownames (error) <- c("UBCF", "IBCF", "SVD", "Popular", "Random") 


> error 
RMSE MSE MAE 

UBCF 4.5 20 3.5 

IBCF 4.6 22 3.5 

SVD 4.6 21 3.7 

Popular 4.5 20 3.5 

Random 6.3 40 4.9 


在 输出 结果 中 可 以 看 到 , 基于 用 户 的 推荐 和 基于 流行 度 的 推荐 技术 表现 得 比 基 于 物品 的 协同 
过 滤 和 奇异 值 分 解 稍 好 一 点 ， 但 它们 都 优 于 随机 推荐 。 

还 有 一 种 比较 方式 是 使 用 evaluate () 函数 。 使 用 evaluate () 进行 比较 时 ， 可 以 使 用 其 他 
方式 查看 各 种 技术 的 表现 ， 比 如 使 用 图 形 。 因 为 基于 用 户 的 协同 过 滤 和 基于 流行 度 的 推荐 是 表现 
最 佳 的 两 种 算法 ， 我 们 就 看 看 这 两 种 算法 与 基于 物品 的 协同 过 波 算 法 三 者 之 间 的 比较 。 


首先 建立 一 个 要 比较 的 算法 的 列表 ， 如 下 所 示 : 


> algorithms <- list(POPULAR = list(name = "POPULAR"), 
UBCF =list(name = "UBCF"), IBCF = list(name = "IBCF")) 












































> algorithms 
$POPULAR 

$POPULRARSname 
[1] "POPULAR" 


$UBCF 
$UBCF $name 
[1] "UBCF" 


$IBCF 
$IBCFS$Sname 
[Lj IBCPEY 


在 本 例 中 ， 我 们 比较 前 5 、10 、15 个 笑话 推荐 ; 


> evlist <- evaluate(e, algorithms, n = c(5, 10, 15)) 
POPULAR run 
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1 [0.07sec/4.7sec] 
UBCF run 

1 [0.04sec/8.9sec] 
IBCF run 

1 [0.45sec/0.32sec]3 


请 注意 , 执行 上 面 的 命令 可 以 知道 每 种 算法 的 运行 时 间 。 现 在 通过 avg () 函数 检查 各 种 技术 
的 表现 : 





























> set.seed(1) 


> avg(evlist) 


$POPULAR 
TP FP FN TN precision recall TPR FPR 
5 2.07 2.93 12.9 67.1 0.414 0.182 0.182 0.0398 
10 3.92 6.08 11.1 63.9 0.393 0.331 0.331 0.0828 
15 5.40 9.60 9.6 60.4 0.360 0.433 0.433 0.1314 
$UBCF 
TP FP FN TN precision recall TPR FPR 
5 2.07 2.93 12.93 67.1 0.414 0.179 0.179 0.0398 
10 3.88 6.12 11.11 63.9 0.389 0.326 0.326 0.0835 
15 5.41 9.59 9.59 60.4 0.360 0.427 0.427 0.1312 
$IBCF 
TP FP FN TN precision recall TPR FPR 
5: 1.02 3.98 14.0 66.0 0.205 0.0674 0.0674 0.0558 
10 2.35 7.65 12.6 62.4 0.235 0.1606 0.1606 0.1069 
15 3.72 11.28 11.3 58.7 0.248 0.2617 0.2617 0.1575 





请 注意 , 基于 流行 度 的 方法 和 基于 用 户 的 协同 过 滤 算 法 的 表现 几乎 没有 什么 差别 。 可 能 有 人 
会 说 ， 如 果 进 行 模型 选择 ,那么 简单 易 行 的 基于 流行 度 的 算法 可 能 更 好 。 我 们 可 以 绘制 受 试 者 工 
作 特征 曲线 比较 结果 ， 在 图 中 你 可 以 比较 TPR 和 FPR， 或 者 精确 度 /召回 度 。 如 下 所 示 : 


> plot(evlist, legend = "topleft", annotate = TRUE) 


述 命令 输出 如 下 。 
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要 得 到 精确 度 /召回 度 曲线 图 ， 只 需 在 plot ( 


) 国 数 中 指定 "prec" 即 可 : 

















> plot(evlist, "prec", legend = "bottomright", annotate = TRUE) 
、 人 人 
上 述 命令 输出 如 下 。 
5 
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在 图 中 可 以 清楚 地 看 到 , 基于 流行 度 和 基于 月 























有 户 的 推荐 算法 几乎 是 等 同 的 , 并且 都 优 于 基于 














项 目的 算法 。 参 数 annotate = TRUE 的 作用 是 在 ， 
模型 评价 中 使 用 的 3 种 推荐 数量 。 














点 的 旁边 显示 数字 ， 图 中 每 条 线 上 的 3 个 点 对 应 


用 统计 图 做 模型 评价 非常 简单 , 但 是 对 于 一 个 具体 用 户 来 说 , 模型 会 给 出 什么 样 的 推荐 呢 ? 
通过 一 些 简 单 的 编码 即 可 知道 答案 。 首 先 , 在 整个 数据 集 上 建立 基于 流行 度 的 推荐 引擎 ， 然 后 找 
出 为 前 2 个 用 户 做 出 的 前 5 个 推荐 。 在 整个 数据 集 上 使 用 recommend () 函数 ， 如 下 所 示 : 





> R1 <- Recommender (Jester5k, method 
> R1 

Recommender of type 'POPULAR' 
learned using 5000 users. 


for 








"POPULAR") 


'realRatingMatrix' 





现在 ， 只 需 得 到 为 前 2 个 用 户 做 出 的 前 5 个 推荐 ， 并 转换 为 一 个 列表 : 





> recommend <- predict(R1, 


> as(recommend, "list") 


$u2841 


[1] "j89" "j72" "j76" "j88" "j83" 


$u1l5547 


[1] "j89" "j93" 


还 可 以 看 至 


"j76" "nj88" 


I 一 个 用 户 对 每 个 笑话 的 评价 分 数 ， 


"j91" 





Jester5k[1:2], 


n = 5) 


在 predict () 函数 中 进行 相应 设置 , 然后 将 结 


果 放 入 一 个 和 矩阵 以 供 查 看 即 可 。 查 看 10 位 用 户 (用户 300~ 用 户 309 ) 对 3 个 笑话 ( 笑话 71~ 笑 话 73 ) 














的 评价 : 
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函数 ， 设 定 minRating=5: 


便 说 明 ， 假 设 这 个 数量 大 于 10。 要 建立 满足 需要 的 数据 子 集 ， 可 以 使 用 下 面 的 代码 : 


证 。 


> rating <- predict(R1, Jester5k[300:309], type = "ratings") 


> rating 


10 x 100 rating matrix of class 'realRatingMatrix' with 322 


ratings. 


> as(rating, "matrix")[, 71:73] 
j73 
042 1.50 -0.2911 


j71 
u7628 -2. 
u8714 
u24213 -2. 
ul3301 2. 
ul10959 
u23430 -0. 
ul11167 -1. 
u4705 -1. 
u24469 -1. 
ul13534 -1. 


和 矩阵 中 的 数字 表示 预测 出 的 月 


j72 


NA 
935 
391 

NA 
432 
718 
199 
583 
545 


NA 


Nb FRR Fw 


NA 


.93 


NA 


#1 
.82 
.34 
.96 
.00 





有 户 对 笑话 的 评价 分 数 ， 


NA 

-1.1837 
4.1419 
NA 

NA 
0.0333 
0.5519 
0.1686 
NA 








A 表示 用 户 没 有 对 该 笑话 进行 记 





F 价 。 


最 后 介绍 如 何在 二 值 评 价 (好 / 坏 、1/0 ) 的 情况 下 建立 推荐 引擎 。 需 要 将 评价 分 数 转换 成 二 
值 形式 ， 大 于 等 于 5 的 评价 记 为 1， 小 于 5 的 评价 记 为 0。 使 用 Recommenderlab 包 中 的 binarize() 








> Jester.bin <- binarize(Jester5k, minRating = 5) 


现在 ， 为 了 满足 算法 训练 的 需要 ， 我 们 要 找 出 那些 具有 一 定数 量 的 评价 为 1 的 记录 。 为 了 方 





> Jester.bin <- Jester.bin[rowCcounts (Jester .bin) > 10] 


> Jester.bin 


3054 x 100 rating matrix of class 'binaryRatingMatrix' with 84722 


ratings. 


还 需要 建立 evaluationScheme。 


默认 设置 是 使 用 10 折 交叉 验 记 











> set.seed(456) 


k = 5, given 


NULL), "popular" 








> e.bin <- evaluationSscheme(Jester.bin, method = "crossvalidation", 
10) 
为 了 进行 比较 ,算法 列表 包括 随机 推荐 、 基 于 流行 度 的 推荐 和 基于 用 户 的 推 
> algorithms.bin <- list("random" = list(name = "RANDOM", param = 
list(name = "POPULAR", param = NULL), "UBCF" = 
om UBCF oy ) ) 


list(name = 


现在 可 以 建立 模型 了 ， 如 下 所 示 : 


四 


荐 : 


在 本 例 中 ， 使 用 参数 cross-validqation， 表 示 使 用 交叉 验 
FE， 为 了 方便 ， 我 们 设 定 上 = 5， 这 样 会 减少 运行 时 间 : 
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> results.bin <- evaluate(e.bin, algorithms.bin, n = c(5, 10, 15)) 
RANDOM run 
1 [0sec/0.41sec] 
2 [0.01sec/0.39sec] 
3 [0sec/0.39sec] 
4 [Osec/0.41sec] 
5 [0sec/0.4sec] 
POPULAR run 
1 [0.01sec/3.79sec] 
2 [0sec/3.81sec] 
3 [0sec/3.82sec] 
4 [0sec/3.92sec] 
5 [0.02sec/3.78sec] 
UBCF run 
[Osec/5.94sec] 
[0sec/5.92sec] 
[0sec/6.05sec] 
[0sec/5.86sec] 
[0sec/6.09sec] 


忽略 性 能 比较 表格 ， 直 接 看 统计 图 : 


PRODPp 











> plot (results.bin, legend = "topleft") 
上 述 命 令 输 出 如 下 。 
| random po 
© |- popular -一 
二 UBCF 区 
3 ] A 
2 


TPR 


0.2 
上 
\ 



































0.00 0.05 0.10 0.15 
FPR 
> plot(results.bin, "prec", legend = "bottomright") 
、 人 全、 
上 述 命令 输出 如 下 。 
人 一 一 一 一 、、. 
= A 


0.1 


—e— random 

-A popular 

二 UBCF 
T T T T T 
00 0.1 02 03 04 











recall 
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基于 用 户 的 算法 比 基 于 流行 度 的 算法 稍稍 好 一 点 ， 但 你 可 以 看 出 ， 二 者 明显 优 于 随机 推荐 。 
在 这 个 案例 中 ,应 该 由 决策 团队 最 后 决定 使 用 哪 种 算法 。 























10.9 序列 数据 分 析 


“有 些 已 知 的 已 知 ， 也 就 是 我 们 知道 我 们 知道 。 有 些 已 知 的 未 知 ， 也 就 是 我 们 知道 
有 些 事 我 们 不 知道 ,但 是 ,也 有 一 些 未 知 的 未 知 ,就 是 那些 我 们 不 知道 我 们 不 知道 的 事 。” 


一 一 唐纳德 . 拉 姆 斯 菲尔德 ， 美 国 前 国防 部 长 


本 书 出 版 前 ， 我 遇 到 的 一 个 商业 问题 就 是 围绕 产品 序列 分 析 进 行 的。 我 的 团队 使 用 复杂 的 
Excel 表 格 和 透视 表 ， 以 及 一 大 堆 SAS 代 码 来 从 中 分 析 有 用 的 知识 。 遇 到 这 个 问题 之 后 , 我 研究 了 
如 何 用 R 解 决 问题 。 令 人 惊喜 的 是 , 我 误 打 误 接地 发 现 了 TraMineR 这 个 专门 为 解决 这 种 问题 而 设 
计 的 软件 包 。 我 相信 ， 使 用 R 进 行 序列 分 析 会 大 大 简化 分 析 过 程 。 


这 个 软件 包 是 为 社会 科学 设计 的 ,但 适用 于 所 有 要 挖 气 和 学 习 观 测 状态 如 何 随 着 固定 区 间或 
事件 (纵向 数据 ) 而 变化 的 情况 。 前 面 提 到 的 情况 就 是 它 的 一 个 经 典 应 用 ， 在 那个 应 用 中 ， 你 想 
弄 清楚 顾客 购买 商品 的 顺序 。 这 有 利于 实现 一 个 推荐 引擎 ， 在 这 个 引擎 中 , 你 可 以 生成 下 一 次 购 
买 行为 (也 有 人 将 其 称 为 下 一 次 合理 的 产品 供应 ) 的 概率 。 另 一 个 应 用 案例 发 生 在 卫生 保健 领域 ， 
用 来 研究 患者 接受 治疗 或 药物 的 顺序 , 甚至 还 可 以 研究 医生 开 处 方 的 习惯 。 我 从 事 过 这 方面 的 工 
作 ， 当 时 创建 了 各 种 简单 或 复杂 的 马尔 科 夫 链 来 建立 模型 并 进行 预测 。 实 际 上 ，TraMineR 也 可 以 
创建 马尔 科 夫 链 转 移 矩 阵 来 支持 这 种 模型 。 

我 们 要 检查 的 代码 会 完成 很 多 艰苦 的 工作 , 包括 创建 、 计 数 以 及 绘制 随时 间 变化 的 各 种 转换 
组 合 ， 还 要 包含 协 变量 。 这 就 是 我 们 的 重点 ,但 请 记 住 ， 也 可 以 建立 一 个 相 异 度 抢 阵 来 进行 聚 类 
分 析 。 在 这 个 实 操 训 练 中 ， 核 心 特征 由 以 下 几 个 指标 组 成 
口 转换 率 
D 每 种 状态 的 持续 时 间 
口 序列 频率 


让 我 们 开始 吧 。 




































































一 ~ 











序列 分 析 应 用 
为 了 进行 这 个 练习 ， 我 自己 创造 了 一 个 数据 集 ， 你 可 以 从 GitHub 上 下 载 : 





https://github.com/datameister66/data/blob/master/sequential.csv 


在 TraMineR 包 中 也 可 以 找到 数据 集 和 教程 , 但 我 的 意图 是 创造 一 些 新 的 东西 来 反映 我 遇 到 
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的 情形 。 这 个 数据 集 几乎 都 是 随机 生成 的 (加 入 了 一 点 人 工 干预 )， 所 以 不 要 用 它 套 用 任何 真 
实 世 界 中 的 数据 。 该 数据 集 包含 5000 条 观测 ， 每 条 观测 都 是 某 位 顾客 的 购买 历史 记录 ,还 包含 


9 个 


























变量 。 

D Cust_segment : 一 个 因子 变量 ， 示 顾 客 分 类 (参见 第 8 章 )。 

口 8 个 离散 型 购买 事件 ， 分 别 为 Purchasel~Purchase8: 请 记 住 ， 它 们 不 是 基于 时 间 序 列 
的 事件 ， 也 就 是 说 ， 顾 客 可 以 同时 购买 所 有 8 种 商品 ， 但 要 有 一 定 的 顺序 。 

每 个 购买 变量 中 保存 着 购买 商品 的 名 称 ， 共 有 7 种 商品 ，ProductA~ProductG。 它 们 是 些 什 么 

商品 呢 ? 这 并 不 重要 ! 你 可 以 根据 实际 情况 尽情 发 挥 想象 力 。 如 果 一 个 顾客 只 购买 了 一 件 商 品 ， 

那么 Purchase1 就 会 包含 这 件 商 品 的 名 称 ， 其 他 变量 都 是 NULL。 

将 这 个 文件 加 载 到 数据 框 中 ， 为 了 使 版 面 更 加 整洁 清晰 ， 我 简化 了 结构 函数 的 输出 : 


> df <- read.csv("sequential.csv") 




































































> str(df) 

'data.frame': 5000 obs. of 9 variables: 

$ Cust Segment: Factor w/ 4 levels "Segment1"，"Segment2"，..: 1 1 1 
再 证 i es Be 

$ Purchasel : Factor w/ 7 levels "Product A","Product B",..: 127 


3 4 L444 a 


下 面 进行 一 些 数据 探索 , 首先 使 用 表格 表示 各 个 顾客 分 类 中 的 顾客 数量 ,以 及 第 一 次 商品 购 
买 的 分 类 数量 : 


> table(df$Cust_Segment) 


Segment1 Segment2 Segment3 Segment4 
2900 572 554 974 


> table(df$Purchasel) 





Product_ A Product_B Product_C Product D Product E Product _F 
Product_G 
1451 765 659 1060 364 372 
329 
Segmentl 是 最 大 的 顾客 分 类 ， 首 件 商 品 中 ， 购 买 最 多 的 是 ProductA。 但 在 所 有 商品 购买 中 ， 
它 是 购买 次 数 最 多 的 吗 ” 以 下 代码 可 以 告诉 我 们 答案 : 


> table(unlist(df[, -1])) 




















Product_A Product B Product C Product D Product E Product _F 
Product_G 

3855 3193 3564 3122 1688 1273 915 
22390 


没 错 ，ProductA 就 是 购买 次 数 最 多 的 商品 。NULL 值 的 数量 是 22 390。 
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你 可 能 想 知道 ， 我 们 能 否 不 费力 气 就 完成 一 些 摘要 统计 。 确 实 可 以 。 下 面 对 dplyr 包 中 的 
count () 函数 和 arrange () 函数 进行 了 充分 利用 ,检查 第 一 次 购买 行为 和 第 二 次 购买 行为 之 间 的 
序列 频率 : 

> dfCount <- count(df, Purchasel, Purchase2) 


> dfCount <- arrange(dfCount, desc(n)) 


> dim(dfCount) 
[1] 56 3 


> head (dfCount) 
Source: local data frame [6 x 3] 
Groups: Purchasel [4] 


Purchasel Purchase2 n 

<fctr> <fctr> <int> 
Product_ A Product A 548 
Product_D 548 
Product_B 346 


Product _C Product_C 345 
Product_B Product_B 291 
Product_D Product DD 281 
可 以 看 出 , 最 频繁 的 序列 是 购买 一 次 ProductA 后 再 购买 一 次 ProductA , 以 及 购买 一 次 ProductD 
后 不 再 购买 。 有 趣 的 是 同样 商品 购买 之 间 的 频率 。 


下 面 使 用 TraMineR 包 开始 更 深入 的 检查 。 要 使 用 TraMineR 包 ， 应 该 先 转换 数据 ， 使 用 
seqdef () 函数 将 数据 保存 到 一 个 序列 类 的 对 象 中 。 这 个 对 象 只 包含 序列 数据 , 没有 任何 协 变量 。 
还 有 ， 可 以 使 用 参数 xtstep = n 指 定 绘图 函数 中 刻度 线 的 距离 。 在 这 个 例子 中 ， 每 个 事件 使 用 
1 个 刻度 线 : 


OU 忆 wPNP 


















































> seq <- seqdef(df[, -1], xtstep = 1) 


> head(seq) 
Sequence 
1 Product A-Product A------ 
2 Product B------- 
3 Product _ G-Product B-Product B-Product C-Product B-Product B- 
Product _B- 
Product _G 
4 Product C------- 
5 Product A------- 
6 Product D------- 


下 面 进行 更 深入 的 数据 探索 ,查看 索引 图 ,可 以 生成 前 10 个 观测 的 序列 。 你 可 以 使 用 数据 索 
引 检 查 任意 多 的 观测 和 事件 区 间 : 











> seqiplot (seq) 


Ag 


10.9 序列 数据 分 析 


211 





和 


H 


$$ 输出 如 下 。 





10 seq. (Nn=5000) 
:36 1 8 8 




















| | 
ES 
ET 
BE | | TT TT 1 | 
| 
中 
| 
| 
ES 





Purchase1 Purchase2 Purchase3 Purchase4 Purchase5 Purchase6 Purchase7 Purchase8 


国 Product A 国 Product | Be 国 Product_G 
国 Product B 国 Product 











使 用 seqIplot () 函数 绘制 所 有 观测 ， 但 因为 数据 量 的 原因 ， 这 样 做 没有 什么 意义 。 绘 制 状 





态 分 布 图 更 能 说 明 问题 ; 
> seqdplot (seq) 


上 述 代 码 输出 如 下 。 





=5000) 


Freq. (n: 











00 02 04 06 08 





[ T T T T T T 
Purchase1 Purchase2 Purchase3 Purchase4 ”Purchase5 Purchase6 Purchase7 Purchase8 


国 Product A 国 Product D 国 Product_G 
国 Product B 国 Product E 














在 这 幅 图 中 ， 


可 以 明显 看 出 商品 购买 按照 状态 的 分 布 。 还 可 以 按照 顾客 类 别 对 这 幅 图 进 


组 ， 看 看 不 同 顾客 类 别 之 间 是 否 有 区 别 : 


> seqdplot(seq, group = df$Cust Segment) 


上 述 代 码 输出 如 下 页 图 。 


行 分 
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Segment1 Segment2 

8 8 
重 
所 过 三 = 

口 所 ” 口 
上 
上 o 

口 EE 

Purchase1 Purchase3 Purchase5 Purchase7 Purchase1 Purchase3 Purchase5 Purchase7 
Segment Segment4 

3 3 
总 5 
时 
E EE 
2 学 二 
so so 
蜂 长 
它 [3 

FE EE 

口 Ss 


Purchase1 Purchase3 Purchase5 Purchase7 Purchase1 Purchase3 Purchase5 Purchase7 























从 上 图 中 可 以 清楚 地 看 出 ，Segment2 与 其 他 顾客 分 类 相 比 ， 购 买 ProductA 的 比例 是 最 高 的 。 
还 可 以 通过 模 态 图 发 现 问 题 : 


> seqmsplot(seq, group = df$Cust_ Segment) 


述 命令 输出 如 下 。 





Segment1 Segment2 


Modal state sequence (40 occurrences, freq=7%) 


Modal state sequence (146 occurrences, freq=5%) 


State freq, (n=2900) 
eg 
ond 
| 一 上 一 一 上 一 
State freq. (n=572) 
本 
口中 以 ~ 
一 一 上 一 上 一 





rchase1 Purchase3 Purchase5 Purchase7 Purchase1 Purchase3 Purchase5 Purchase7 


Segment3 Segment4 


Modal state sequence (38 occurrences, freq=6.9%) Modal state sequence (133 occurrences, freq=13.7%) 


State feq (n=554) 
o 图 nn 
A Re 





Purchase3 Purchase5 Purchase7 Purchase1 Purchase3 Purchase5 Purchase7 























个 图 很 有 意思 。 大 约 有 50% 的 Segment2 类 别 的 顾客 首次 购买 商品 是 ProductA ， 而 对 于 

Roll 最 频繁 的 首次 购买 商品 则 是 ProductD 。 另 一 种 可 能 有 意义 的 图 是 时 间 均 值 

， 但 我 认为 这 个 例子 不 需要 它 。 时 间 均 值 图 可 以 绘制 出 每 种 状态 下 花费 的 平均 “时 间 ”。 因 为 
0 所 以 它 没 有 意义 ， 但 我 认为 还 是 应 该 提 一 句 : 


> seqmtplot(seq, group = df$Cust Segment) 


继续 前 面 的 代码 , 深入 查看 序列 变化 。 下 面 的 代码 先 创建 一 个 序列 对 象 , 第 选 出 那些 出 现 频 
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率 大 于 5% 的 序列 ， 然 后 绘制 前 10 个 序列 : 
> seqE <- seqecreatel(seq) 
> subSeq <- seqefsub(seqE, pMinSupport = 0.05) 


> plot(subSeq[1:10], col = "dodgerblue") 


述 命令 输出 如 下 。 


| © 
i I i 


请 注意 ， 这 张 图 表示 出 序列 在 8 种 转换 状态 下 的 频率 百分比 。 如 果 想 进行 简化 ， 比 如 只 使 用 
前 两 种 转换 ， 可 以 在 seqecreate () 函数 中 设 定 索引 。 


最 后 ,看 看 如 何 使 用 数据 创建 一 个 转换 矩阵 , 从 而 表示 从 一 个 状态 转换 到 另 一 个 状态 的 概率 。 
正如 前 面 所 说 ， 这 个 矩阵 还 可 以 用 于 马尔 科 夫 链 的 模拟 ， 对 未 来 进行 预测 。 这 已 经 超出 了 本 章 的 
范围 , 如 果 你 感 兴趣 , 我 建议 你 研究 R 中 的 markovchain 软 件 包 及 其 教程 , 看 看 如 何 实现 这 个 过 程 。 
我 们 给 出 了 两 种 可 能 的 转换 矩阵 。 


一 种 矩阵 包括 所 有 状态 之 间 的 全 部 概率 , 另 一 种 矩阵 则 表示 从 某 个 状态 转换 到 另 一 种 状态 的 
概率 , 也 就 是 时 间 变 化 矩阵 。 要 想 建立 第 二 种 矩阵 , 只 要 在 函数 中 设 定 参数 time .varying=TRUE 
即 可 。 下 面 的 代码 展示 了 如 何 建 立 第 一 种 矩阵 : 








)-(Product_A>Product_B) 
) 


Product_B) 





luct_B>Product_A 








0.00 005 0.10 0.15 0.20 0.25 





























> seqMat <- seqtrate(seq) 
[>] computing transition rates for states 


/Product_ A/Product_ B/Product C/Product DD/ 
Product_E/Product_F/Product G ... 


> options(digits = 2) # make output easier to read 


> seqMat [2:4, 1:3] 
[-> ] [-> Product A] [-> Product _ B] 


[Product A ->] 0.19 0.417 0.166 
[Product B ->] 0.26 0.113 0.475 
[Product C ->] 0.19 0.058 0.041 


上 面 的 输出 显示 了 和 拖 阵 中 的 第 2~4 行 和 第 1~3 列 。 从 矩阵 中 可 以 看 出 ， 购 买 ProductA 之 后 ,有 
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差不多 42% 的 概率 还 会 再 购买 一 次 ProductA， 有 19% 的 概率 不 再 购买 商品 ， 有 17% 的 概率 会 购买 
ProductB 。 我 们 要 检查 的 最 后 一 项 结果 是 对 于 每 种 购买 行为 ， 随 后 不 再 购买 商品 的 概率 : 
> seqMat[, 1] [ ->] [Product A ->] [Product B ->] [Product C ->] 
[Product _D ->] 
1.00 0.19 0.26 0.19 0.33 


[Product_E ->] [Product _F ->] [Product G ->] 
0.18 0.25 0.41 


从 和 矩阵 中 可 以 看 出 ， 如 果 没 有 购买 行为 ， 那 么 随后 也 不 再 购买 商品 的 概率 为 100%， 这 是 很 
自然 的 事情 。 还 有 ， 我 们 发 现 ， 获 得 ProductD 之 后 ， 不 再 购买 商品 的 概率 是 33%。 这 是 Segment4 
类 别 的 顾客 吗 ?” 有 可 能 。 


这 个 分 析 只 需 几 行 代码 即 可 完成 ， 而 且 不 需要 使 用 Excel 或 者 其 他 昂贵 的 可 视 化 软件 ， 真 的 
太 棒 了 。 你 有 纵向 数据 吗 ? 如 果 有 ， 那 就 试 试 序列 分 析 吧 ! 






























































10.10 小结 


我 们 在 本 章 的 目标 是 介绍 如 何 使 用 R 进 行 关联 规则 挖掘 ( 购物 篮 分 析 ), 以 及 建立 并 测试 推荐 
引擎 。 购 物 篮 分 析 就 是 试图 理解 可 能 同时 购买 哪些 商品 。 推 荐 引擎 的 目标 就 是 ,在 顾客 对 以 前 训 
览 过 和 购买 过 的 商品 进行 评价 的 基础 上 ,向 其 推荐 感 兴趣 的 其 他 商品 。 需 要 注意 的 一 点 是 , 介绍 
推荐 系统 时 使 用 的 R 包 ( recommederlab ) 不 是 为 了 实现 推荐 算法 而 开发 的 ， 而 是 基于 算法 研究 与 
测试 的 目的 。 本 章 介 绍 的 另外 一 项 内 容 是 如 何 对 纵向 数据 进行 挖掘， 以 获得 有 用 的 知识 ,在 我 们 
的 例子 中 就 是 顾客 购买 商品 的 顺序 。 这 种 分 析 方 法 有 很 多 实际 用 途 , 包括 市 场 营 销 活动 以 及 卫生 
保健 。 

下 面 我 们 再 回 到 监督 式 学 习 。 第 11 章 将 介绍 一 些 最 激动 人 心 的 重要 方法 以 进行 机 器 学 习 实 
战 ， 那 就 是 多 类 分 类 和 建立 集成 模型 。 如 果 使 用 近期 发 布 的 一 些 软件 包 ， 那 么 用 R 完 成 这 些 任务 
会 非常 容易 。 
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“赢得 机 器 学 习 竞 赛 的 手段 就 是 : 把 别人 的 工作 拿 过 来 ， 再 揉 到 一 起 。” 
一 一 维 塔 利 . 库 效 涅 估 夫 ，2014 年 神经 信息 处 理 系 统 大 会 


你 可 能 已 经 意识 到 ， 我 们 讨论 过 集成 学 习 。www.scholarpedia.org 对 集成 学 习 的 定义 是 :“ 有 
策略 地 建立 多 个 模型 ( 如 分 类 器 或 专家 系统 ) 并 将 其 组 合 在 一 起 ,解决 特定 计算 智能 问题 的 过 程 。 
在 随机 森林 和 梯度 提升 模型 中 , 我 们 将 几 百 或 几 千 棵 树 的 “投票 ”结果 组 合 起 来 进行 预测 。 于 是 ， 
根据 集成 学 习 的 定义 ,这 些 模型 就 是 集成 学 习 模 型 。 这 种 方法 可 以 扩展 至 任意 学 习 右 ， 以 建立 集 
成 模型 , 有 人 将 这 样 的 学 习 器 称 为 元 组 件 或 元 学 习 器 。 我 们 要 介绍 一 种 名 为 “模型 融合 ”的 方法 。 
在 这 种 方法 中 , 我 们 要 生成 多 个 分 类 器 , 然后 将 这 些 分 类 器 的 类 别 预测 概率 作为 另 一 个 分 类 器 的 
输入 特征 。 这 种 方法 可 以 提高 预测 准确 率 。 前 面 的 章节 重点 讨论 了 二 值 结果 的 分 类 问题 ， 本章 将 
讨论 数据 包含 的 结果 多 于 两 个 时 的 预测 方法 。 在 真实 世界 的 数据 集中 , 这 种 情况 非常 常见 。 我 必 
须 承 认 ，R 语 言 中 这 些 方法 的 应 用 才 是 我 遇 到 过 的 最 有 趣 、 最 令 人 享受 的 过 程 。 




































































11.1 集成 模型 


本 章 开 头 的 引文 提 到 ,可 以 使 用 集成 模型 廊 得 机 器 学 习 竞 赛 。 实 际 上 ,集成 模型 确实 有 实际 
应 用 。 我 已 经 提供 了 一 个 集成 模型 的 定义 , 但 它 为 什么 有 效 ? 为 了 说 明 这 个 问题 , 我 从 下 面 的 博 
客 选择 了 一 个 例子 ， 其 中 深入 讲述 了 一 些 集成 学 习 的 方法 : 























http:/mlwave.com/kaggle-ensembling-guide/ 


我 撰写 本 章 时 , 距离 第 51 届 超级 碗 比赛 只 有 几 天 时 间 ， 当时 亚 特 拉 大 猫 座 队 对 阵 新 英格兰 爱 
国 者 队 。 假 设 我 们 在 熟人 之 间 下 了 一 笔 小 小 的 赌注 ， 赌 爱国 考 队 净 负 3 分 ， 要 评估 一 下 说 得 这 笔 
赌注 的 概率 。 再 假设 我 们 跟随 3 位 专业 预言 家 的 预测 , 他 们 给 出 的 爱国 者 队 净 负 3 分 以 上 的 概率 都 
是 60%。 所 以 ， 如 果 我 们 相信 任何 一 个 所 谓 专家 的 预测 ， 那 么 很 明显 ， 有 60% 的 概率 可 以 赢得 赠 
注 。 但 是 , 对 专家 的 预测 建立 一 个 集成 模型 可 以 提高 我 们 获胜 的 概率 ,这 个 概率 使 我 们 既 能 赢得 
亲朋 好 友 的 钱 ， 又 可 以 无 情 地 嘲笑 他 们 。 下 面 看 看 如 何 做 到 这 一 点 。 
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首先 计算 专家 选择 新 英格兰 队 的 每 种 可 能 结果 的 概率 。 如 果 3 位 专家 都 选择 了 新 英格兰 队 ， 
那么 他 们 都 正确 的 概率 是 0.6 x 0.6 x 0.6， 即 21.6%。 如 果 任 意 两 位 选择 了 新 英格兰 队 ， 那 么 有 
(0.6 x 0.6x0.4)x3， 即 43.2% 的 概率 获胜 。 通 过 少数 服从 多 数 的 原则 ， 如 果 3 人 中 至 少 2 人 选择 了 
新 英格兰 队 ， 那 么 我 们 获胜 的 概率 差不多 是 65%。 


这 个 例子 相当 简单 ， 但 非常 有 代表 性 。 在 机 器 学 习 中 ,这 种 方法 的 优点 是 可 以 将 几 种 性 能 平平 
甚至 很 差 的 学 习 圳 的 预测 结果 结合 起 来 , 从 而 提高 整体 准确 率 。 下 图 说 明了 这 个 过 程 是 如 何 完成 的 。 


测试 数据 


在 这 幅 图 中 , 我 们 建立 了 3 种 不 同 的 分 类 器 , 并 使 用 它们 的 预测 概率 作为 第 4 个 不 同 分 类 器 的 
输入 ， 以 对 测试 数据 做 出 预测 。 下 面 看 看 如 何 使 用 R 语 言 实现 。 





























集成 模型 的 融合 








训练 数据 






































11.2 业务 理解 与 数据 理解 


本 节 会 再 一 次 遇 到 老 冤家 : 皮 玛 印第安 人 糖尿 病 数据 集 。20 世 纪 70 年 代 中 期 ， 对 于 那些 以 正 
确 率 衡量 性 能 的 分 类 带 来 说 , 这 个 数据 集 就 已 经 被 证 明 是 个 超级 难题 。 第 5 章 和 第 6 章 已 经 研究 过 
这 个 数据 集 ， 所 以 就 不 介绍 它 的 细节 了 。 有 很 多 R 包 可 以 建立 集成 模型 ， 即 使 你 自己 用 代码 实现 
也 不 难 。 本 节 使 用 caret 包 和 caretEnsemble 包 解决 这 个 问题 。 先 加 载 程 序 包 并 进行 数据 准备 ,使 用 
caret 包 中 的 createDataPartition() 函数 创建 训练 集 和 测试 集 : 


> library (MASS) 






































v 


library (caretEnsemble) 


v 


library (caTools) 


v 


pima <- rbind(Pima.tr, Pima.te) 


set .seed(502) 


v 


Split <- createDataPartition(y = pima$type, p = 0.75, list = F) 


v 


v 


train <- pima[split, ] 


v 


test <- pima[-split, ] 
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11.3 ”模型 评价 与 模型 选择 


和 我 们 在 前 面 的 章节 中 所 做 的 一 样 ， 使 用 caret 包 的 功能 时 ， 第 一 件 事 就 是 建立 一 个 对 象 ， 
以 设 定 如 何 训练 模型 。 可 以 使 用 traincontrol () 函数 完成 。 要 通过 5 折 交 叉 验 证 来 建立 模型 ， 
并 将 最 后 预测 〈 概率 ) 保存 下 来 。 你 还 应 该 按照 索引 进行 再 抽样 ， 以 使 每 个 基础 模型 都 使 用 同 
样 的 数据 折 进 行 训练 。 此 外 ， 还 要 注意 我 在 函数 中 设 定 了 上 和 采样。 为 什么 呢 ? 因为 Yes 和 No 的 
比例 是 2 :1: 














> table(trains$type) 


No Yes 
267 133 


这 个 比例 并 不 一 定 意味 着 分 类 不 平衡 , 但 我 想 在 这 里 说 明 一 些 问题 。 在 很 多 数据 集中 ， 我们 
感 兴趣 的 结果 是 一 种 罕见 的 事件 。 于 是 你 就 会 得 到 这 样 一 种 分 类 器 , 它 的 正确 率 非 常 高 ,但 预测 
我 们 感 兴趣 的 结果 时 效果 非常 差 。 也 就 是 说 ， 根 本 预测 不 出 真 阳性 的 结果 。 为 了 平衡 响应 变量 ， 
你 可 以 对 少数 类 进行 上 采样 对 多 数 类 进行 下 采样 建立 “人工 合 成 ”的 数据 。 下 一 个 练习 会 重 
点 讨论 合成 数据 , 在 这 个 练习 中 , 我们 试 坛 上 采样 。 在 上 采样 过 程 中 ， 对 于 交叉 验证 使 用 的 每 折 
数据 ,少数 类 都 使 用 有 放 回 的 随机 抽样 ， 以 使 其 数量 与 多 数 类 的 观测 数量 相 匹 配 。 我 们 的 函数 形 
式 如 下 : 



































> control <- trainControl(method = "cv", 
number = 5， 
SavePredictions = "final", 


classProbs = T, 

index=createResample (trainstype, 5), 
sampling = "up", 

summaryFunction = twoClassSummary) 


然后 使 用 caretList () 函数 训练 模型 。 在 函数 中 ,你 可 以 使 用 任意 caret 包 支持 的 模型 ， 可 
用 的 模型 列表 及 其 相应 的 超 参数 参见 : 








https://rdrr.io/cran/caret/man/models.html 
在 这 个 例子 中 ， 我 们 训练 3 种 模型 。 


口 分 类 树 模型 ， "rpart" 
口 多 元 自 适 应 回归 样 条 模型 : "earth" 
口 K 最 近邻 模型 ; "kmnnn" 


可 以 同时 训练 这 3 种 模型 : 








> set.seed(2) 


> models <- caretList( 








type ~ ., data = train, 

trControl = control, 

metric = "ROC", 

methodList = c("rpart", "earth", "knn") 
) 





caretList () 捕 数 不 但 能 够 建立 模型 , 还 可 以 按照 caret 包 的 规则 调整 每 种 模型 的 超 参 数 。 使 














> models 


Resampling results across tuning parameters: 


cp ROC Sens Spec 
0.03007519 0.7882347 0.8190343 0.6781714 
0.04010025 0.7814718 0.7935024 0.6888857 
0.36090226 0.7360166 0.8646440 0.6073893 








基础 模型 能 够 有 效 组 合 的 要 求 是 , 它们 不 高 度 相关 。 这 是 一 个 主观 的 判定 , 模型 预测 结果 是 
否 相关 没有 严格 的 规则 。 你 应 该 用 结果 进行 实验 ， 必 要 时 可 以 替换 一 个 模型 。 看 看 我 们 的 结果 : 





> modelCor (resamples (models)) 

rpart earth knn 
rpart 1.0000000 0.9589931 0.7191618 
earth 0.9589931 1.0000000 0.8834022 
knn 0.7191618 0.8834022 1.0000000 


分 类 树 与 earth 模 型 高 度 相关 。 这 可 能 是 一 个 问题 ,但 我 们 先 忽 略 它 ,继续 建立 第 
并 检查 结果 。 要 完成 这 一 步 ， 需 要 找 出 测试 集中 Yes 的 预测 概率 ， 并 保存 








器 一 一 融合 模型 
在 数据 框 中 : 





> model preds <- lapply(models, predict, newdata=test, 



































用 caretModelspec () 函数 可 以 为 每 种 模型 创建 各 自 的 调 优 参数 网 格 , 但 出 于 演示 的 目的 , 我 们 
将 调 优 工作 交 给 caretList () 国 数 。 可 以 调用 模型 对 象 检 查 


以 下 是 一 些 简 化 的 输出 : 


du 








type="prob") 


> model preds <- lapply(model preds, function(x) xl[,"Yes"]) 


> model preds <- data.frame (model preds) 




















I 








四 个 分 类 








下 面 使 用 caretStack () 函数 将 这 些 模型 融合 在 一 起 ， 进 行 最 终 预 测 。 这 就 是 基于 5 个 自助 


抽样 样本 的 一 个 简单 逻辑 斯 带 回归 |: 





> stack <- caretStack (models, method = "glm", 
metric = "ROC", 
trControl = trainControll( 
method = "boot", 
number = 5， 
savePredictions = "final", 


classProbs = TRUE, 
summaryFunction = twoClassSummary 


) ) 
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检查 最 终 模型 ， 如 下 所 示 : 


> summary (Stack) 


Call: 
NULL 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-2.1029 -0.6268 -0.3584 0.5926 2.3714 


Coefficients: 

Estimate Std. Error Zz value Pr(>|z|) 
(Intercept) 2.2212 0.2120 10.476 < 2e-16 *** 
rpart -0.8529 0.3947 -2.161 0.03071 * 
earth -3.0984 0.4250 -7.290 3.1e-13 *** 
knn -1.2626 0.3524 -3.583 0.00034 *** 

















即使 rpart 模 型 和 earth 模 型 高 度 相关 ,它们 的 系数 也 依然 是 显著 的 ， 所 以 应 该 可 以 在 分 析 中 保 
留 这 两 个 模型 。 下 面 比较 单独 模型 的 结果 和 集成 模型 的 结果 : 











> prob <- 1l-predict(stack, newdata = test, type = "prob") 
> model predss$ensemble <- prob 


> colAUC (model preds, tests$type) 
rpart earth knn ensemble 
No vs. Yes 0.7413481 0.7892562 0.7652376 0.8001033 


通过 colAUC () 函数 可 以 看 到 单独 模型 的 AUC 和 集成 模型 的 AUC。 集 成 模型 的 结果 要 比 只 使 
用 earth 包 中 的 多 元 自 适 应 回归 样 条 模型 的 结果 稍 好 一 点 。 所 以 由 本 例 可 以 发 现 , 通过 模型 融合 建 
立 的 集成 模型 确实 可 以 提高 预测 能 力 。 对 于 这 个 数据 集 , 你 能 建立 一 个 更 好 的 集成 模型 吗 ? 你 应 
该 使 用 什么 样 的 抽样 方法 或 分 类 器 呢 ? 带 着 这 些 问 题 ， 我 们 开始 研究 多 类 分 类 。 


11.4 ”多 类 分 类 


有 多 种 方法 可 以 学 习 多 类 分 类 问题 。 随 机 森林 和 判别 分 析 这 样 的 技术 可 以 处 理 多 类 问题 , 但 
有 些 技术 和 软件 包 无 能 为 力 ， 比 如 基础 R 包 中 的 广义 线性 模型 glm() 。 不 幸 的 是 ， 上 面 提 到 的 
caretEnsemble 包 无 法 处 理 多 类 分 类 问题 ， 但 R 语 言 机 器 学 习 包 (mlr ) 可 以 同时 支持 多 类 分 类 和 和 集 
成 方法 。 如 果 你 非常 熟悉 Python 中 的 scikitLearn 扩 展 包 ， 那 就 没什么 问题 ， 因 为 mlr 就 在 R 语 言 中 
提供 了 与 之 相同 的 功能 。mir 和 基于 caret 的 软件 包 迅 速成 为 我 解决 几乎 所 有 商业 问题 的 首选 。 我 
本 节 要 演示 mlr 包 解决 多 类 分 类 问题 时 有 多 么 强大 ， 最 后 还 要 展示 如 何在 皮 玛 印第安 人 数据 集 上 
建立 集成 模型 。 


对 于 多 类 分 类 问题 ， 我 们 先 看 看 如 何 调整 随机 森林 模型 ， 然 后 再 研究 如 何 使 用 “一 对 多 ” 技 
术 使 一 个 GLM 模 型 转换 为 多 类 分 类 学 习 器 。 这 种 技术 先 将 某 个 类 别 归 为 一 类 ， 其 他 类 别 归 为 另 
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一 类 , 建立 一 个 二 值 概率 预测 模型 ， 对 每 个 类 别 都 做 完 上 述 操作 之 后 ， 再 将 结果 组 合 起 来 预测 观 
测 的 最 终 类 别 。 这 种 技术 可 以 使 你 将 任何 分 类 器 扩展 到 多 类 分 类 问题 上 ， 其 效果 经 常会 超过 多 类 
分 类 学 习 器 。 

提醒 一 下 ,不 要 混淆 多 类 分 类 和 多 标签 这 两 个 术语 。 对 于 多 类 分 类 ， 一 个 观测 可 以 被 分 到 而 
且 只 能 被 分 到 一 个 类 别 中 ; 而 对 于 多 标签 ,观测 可 以 被 分 配 到 多 个 类 别 中 。 多 标签 的 一 个 例子 是 
文本 既 可 以 被 标记 为 “政治 "， 也 可 以 被 标记 为 “幽默 "。 本 章 不 会 涉及 多 标签 问题 。 


11.5 业务 理解 与 数据 理解 


我 们 继续 使 用 第 8 章 用 过 的 葡萄 酒 数 据 集 。 它 包括 13 个 数值 型 特征 和 1 个 响应 变量 , 响应 变量 
中 有 3 个 普通 酒 类 别 。 我 们 的 任务 就 是 预测 这 些 类 别 。 我 要 对 数据 集 进 行 有 趣 的 修改 ， 人 工 增加 
观测 数量 。 原 因 有 两 点 ， 第 一 ， 我 要 充分 展示 mlr 包 的 再 抽样 能 力 ; 第 二 ， 我 要 介绍 一 种 合成 抽 
样 的 技术 。 上 一 节 介 绍 了 上 采样 ， 这 次 要 介绍 合成 数据 的 技术 。 


第 一 项 任务 是 加 载 程序 包 及 数据 : 







































































> library (mlr) 

> library (ggplot2) 

> library (HDclassif) 
> library (DMwR) 

> library (reshape2) 
> library (corrplot) 
> data (wine) 

> table (wine$class) 


1 2 3 
59 71 48 


我 们 有 178 条 观测 ， 响 应 变量 是 数值 型 的 标签 ( 1、2 和 3 )。 下 面 使 数据 量 倍增 。 这 个 例子 中 
使 用 的 算法 称 为 合成 少数 类 过 采样 技术 。 前 一 个 例子 使 用 了 上 采样 , 对 少数 类 进行 了 有 放 回 的 采 
样 ， 直 至 其 数量 可 以 和 多 数 类 相 匹 配 。 通 过 SMOTE, 我 们 先 对 少数 类 进行 随机 抽样 , 青 计算 ( 识 
别 ) 出 每 个 观测 的 K 最 近邻 , 然后 基于 这 些 近邻 随机 生成 数据 。 在 DMwR 包 中 的 sMoTE () 函数 中 ， 
默认 的 最 近邻 数量 为 5。 男 一 件 需要 考虑 的 事情 是 少数 类 过 采样 的 比例 。 举 例 来 说 ， 如 果 想 创建 
数量 是 现 有 数量 2 倍 的 少数 类 ， 就 应 该 在 函数 中 设 定 "percent .over = 100"。 对 于 要 添加 到 现 
有 少数 类 中 的 每 个 观测 ， 新 采样 的 数量 为 percent.over 的 值 除 以 100， 即 每 个 观测 有 1 个 新 采样 。 还 
有 另外 一 个 采样 比例 参数 ， 它 控制 着 在 新 数据 集中 对 多 数 类 进行 随机 选择 的 数量 。 
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以 下 就 是 这 项 技术 的 实际 应 用 代码 ， 首 先 将 类 别 转换 为 因子 变量 ， 否 则 函数 不 会 起 作用 : 
> wine$class <- as.factor(wine$class) 

> set.seed(11) 

> df <- SMOTE(class ~ ., Wine, perc.over = 300, perc.under = 300) 

> table(df$class) 


1 2 3 
195 237 192 


瞧 ! 我 们 创建 了 一 个 具有 624 个 观测 的 数据 集 。 下 一 项 任务 是 按 类 别 对 各 种 特征 进行 可 视 化 。 
我 是 箱 线 图 的 狂热 粉丝 ,所 以 先 对 前 4 个 输入 特征 按 类 别 做 出 箱 线 图 。 这 4 个 特征 的 量度 都 不 一 样 ， 
将 它们 放 入 一 个 均值 为 0、 标 准 差 为 1 的 数据 框 中 将 有 助 于 比较 : 


> wine.scale <- data.frame(scale(wine[, 2:5])) 









































> wine.scales$class <- winesclass 


> wine.melt <- melt (wine.scale, id.var="class") 


v 


ggplot (data = wine.melt, aes( x = class, y = value)) + 
geom boxplot() + 
facet wrap( ~ variable, ncol = 2) 


上 述 命令 输出 如 下 。 





v1 


























value 



























































class 











回忆 一 下 第 3 曹 , 箱 线 图 中 的 圆 点 被 认为 是 离 群 点 。 那么 怎么 处 理 离 群 点 呢 ? 有 以 下 儿 种 方式 : 
口 什么 也 不 做 一 一 这 总 是 一 种 选择 ; 
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口 删除 这 些 对 应 于 离 群 点 的 观测 ; 
口 在 当前 特征 内 将 观测 截断 ， 或 者 为 截断 的 数据 新 建 一 个 特征 值 ; 
口 为 每 个 特征 创建 一 个 因子 变量 ， 以 确定 一 个 观测 是 否 是 离 群 点 。 











我 总 觉得 离 群 点 很 有 意思 , 也 经 常 对 它们 进行 仔细 的 研究 ,以 确定 为 什么 会 出 现 离 群 点 以 及 
如 何 处 理 离 群 点 。 这 个 例子 时 间 不 够 ， 所 以 简单 处 理 ， 对 离 群 点 进行 分 段 编码 。 创 建 一 个 函数 ， 
识别 离 群 点 。 对 于 其 中 的 高 异常 值 (高 于 第 99 个 百 分 位 )， 将 其 设 为 第 75 个 百 分 位 的 值 ; 对 于 其 
中 的 低 异 常 值 ( 低 于 第 1 个 百 分 位 ), 将 其 设 为 第 25 个 百 分 位 的 值 。 你 也 可 以 将 这 些 异 常 值 设 为 中 


位 数 ， 


0 理解 。 





但 我 发 现 上 面 的 处 理 方式 效果 很 好 。 




















你 可 以 将 这 些 代 码 段 放 在 同一 个 函数 中 , 但 我 认为 分 成 两 部 分 更 简单 ,也 更 容易 


下 面 就 是 处 理 离 群 点 的 函数 : 


v 


outHigh <- function(x) { 
x[x > quantile(x, 0.99)] <- quantile(x, 0.75) 
x 


} 


outLow <- function(x) { 
x[x < quantile(x, 0.01)] <- quantile(x, 0.25) 
x 


} 


现在 在 初始 数据 上 运行 函数 ， 创 建新 数据 框 : 





> wine.trunc <- data.frame(JIappLy(wine[，-1]，outHigh)) 


> wine.trunc <- data.frame(lapply (wine.trunc, outLow)) 


> wine.trunc$class <- winesclass 


可 以 将 截断 后 的 数据 与 初始 数据 进行 简单 的 对 比 。 用 V3 这 个 特征 试 试 : 


> 


此 


boxplot (wine.truncs$sV3 ~ wine.truncs$class) 


述 命令 输出 如 下 。 












































人 
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可 以 看 出 ， 效 果 非 常 好 。 下 面 看 看 相关 性 : 
> C <- cor(wine.trunc[, -14]) 


> corrplot.mixed(c, upper = "ellipse") 


上 述 命 令 输出 如 下 。 





所 


V1 7 
V2 > 0.8 

V3 0.6 

V4 


V5 


“ASO Os 
0.87 V7 、 2S 2 SS 
0.4510.57 V8 多 

0.64 0.69 V9 2 后 
0.55 V10 ® 二 


-0.57 0.46 0.58 -0.51 V11 2 -0.6 


、 
多 02 
2 


0.7 0.79 -0.510.54 10.59 V12 


0.64 -0.4710.43 |0.48 (0.51 V13 











可 以 看 出 ,V6 和 V7 高 度 相关 , 有 一 个 高 于 0.5 的 值 。 一般 来 说 , 在 基于 非 线性 的 学 习 方 法 中 ， 
这 不 是 一 个 问题 。 但 在 我 们 的 GLM 模 型 中 ， 要 加 入 一 个 L2 惩 罚 项 ( 岭 回 归 ) 来 解决 它 。 








We 
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从 创建 训练 集 和 测试 集 开始 , 然后 创建 一 个 随机 森林 分 类 器 作为 基础 模型 。 对 这 个 模型 的 表 
现 进行 评价 之 后 ， 继 续 实 验 一 对 多 类 分 类 方法 ， 看 看 其 效果 如 何 。 我 们 按照 70/30 的 比例 划分 数 
据 。 此 外 ,mlr 包 的 一 个 特点 是 ， 它 要 求 将 训练 集 数 据 保存 在 task 数 据 结构 中 ,该 数据 结构 专门 为 后 
分 类 任务 而 设计 。 也 可 以 将 测试 集 数据 放 在 task 数 据 结构 中 ， 但 这 不 是 必须 的 。 


完整 的 模型 列表 参见 如 下 链接 ， 当 然 ， 你 可 以 使 用 自己 的 模型 : 





























https:/mlr-org.github.io/mlrtutorial/release/htmlintegrated_leanersindex.html 
> library(caret) #if not already loaded 
> set.seed(502) 


> split <- createDataPartition(y = df$class, p = 0.7, list = F) 
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> train <- dfl[split, ] 
> test <- df[-split, ] 


> wine.task <- makeClassifTask(id = "wine", data = train, target = 
"class") 


11.6.1 ”随机 森林 
创建 训练 集 数据 的 task 对 象 之 后 ， 可 以 用 多 种 函数 探索 数据 。 下 面 是 结构 函数 的 简化 输出 ; 





> str(getTaskData (wine.task)) 

'data.frame': 438 obs. of 14 variables: 
$ class: Factor w/ 3 levels "1","2","3": 1212212112... 
$ V1i : num 13.6 11.8 14.4 11.8 13.1 ... 


在 分 析 中 ， 有 多 种 方式 使 用 mlr， 但 我 建议 你 先 创建 一 个 重 抽样 对 象 。 在 本 例 中 ,我 们 创建 
一 个 重 抽样 对 象 来 为 随机 森林 模型 调整 树 的 数量 ， 它 包括 3 个 子 样本 : 














> rdesc <- makeResampleDesc("Subsample", iters = 3) 

下 一 个 对 象 建立 了 一 个 树 的 网 格 来 调整 树 的 数量 ， 最 小 值 为 730， 最 大 值 为 2000。 你 还 可 以 
像 我 们 使 用 caret 包 时 那样 ， 建 立 多 个 参数 列表 。 查 看 makeParamSet 函数 的 帮助 文档 研究 其 设 
置 选项 : 





> param <- makeParamSet( 
makeDiscreteParam("ntree", values = c(750, 1000, 1250, 1500, 
1750, 2000)) 
) 


下 面 创建 一 个 控制 对 象 ， 建 立 数 值 网 格 : 
> ctrl <- makeTuneControlGrid() 


这 样 即 可 调整 超 参 数 ， 从 而 找 出 最 优 树 数量 。 然 后 ， 调 出 最 优 树 数 量 和 相应 的 样本 外 误差 : 








> tuning <- tuneParams ("classif.randomForest", task = wine.task, 
resampling = rdesc, par.set = param, 
control = Ctrl) 


> tuningsx 
sntree 
[1] 1250 


> tunings$y 
mmce.test .mean 
0.01141553 


最 优 的 树 数量 是 1250， 相 应 的 平均 误 分 类 率 是 0.01%， 几 乎 是 一 个 完美 的 分 类 。 于 是 ， 使 用 
这 个 超 参 数 作为 makeLearner () 函数 的 训练 包装 器 就 非常 简单 了 。 请 注意 ， 我 将 预测 类 型 设置 
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为 概率 ， 因 为 默认 类 型 是 预测 分 类 : 


> rf <- setHyperPars (makeLearner("classif.randomForest", 
predict.type = "prob"), par.vals = tunings$x) 


下 面 训 练 模型 : 
> fitRF <- train(rf, wine.task) 
可 以 看 看 训练 数据 上 的 混淆 矩阵: 


> fitRF$learner.model 
OOB estimate of error rate: 0% 
Confusion matrix: 
1 2 3 class.error 





1 72 0 0 0 
2 0 97 0 0 
3 0 0 101 0 














然后 在 测试 集 上 评价 模型 效果 ， 看 看 误差 率 和 正确 率 (1 一 误差 率 )。 因 为 没有 测试 数据 的 task 
对 象 ， 所 以 需要 指定 newdata = test。 如 果 你 建立 了 测试 数据 的 task 对 象 ， 那 么 使 用 testtask 即 可 : 


> predRF <- predict (fitRF, newdata = test) 


> getConfMatrix(predRF) 


predicted 
true 1 2 3 -SUM- 
1 58 0 0 0 
2 0 71 0 0 
3 0 0 57 0 
-SUM- 0 0 0 0 


> Performance (PredRE，measures = list(mmce, acc)) 
mmce acc 
0 El 


我 们 很 轻松 地 预测 了 每 个 类 别 ， 没 有 一 点 错误 。 


11.6.2 ”上 岭 回归 


出 于 演示 的 目的 , 我 们 还 是 要 使 用 一 对 多 的 方法 实验 岭 回 归 。 要 想 完 成 这 个 任务 , 需要 为 二 
值 分 类 方法 创建 一 个 MulticlassWrapper 对 象 。classif.penalized.ridge 方 法 来 自 penalized 软 件 包 ， 所 
以 请 先 确认 你 已 经 安装 了 它 : 











> ovr <- makeMulticlassWrapper("classif.penalized.ridge", 
mcw.method = "onevsrest") 


下 面 为 分 类 咒 创 建 一 个 包装 器 ， 包装 带 可 以 用 装 袋 法 进行 10 次 ( 默认 值 ) 有 放 回 重 抽样 ， 抽 
取 70% 的 观测 和 所 有 输入 特征 : 
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> bag.ovr = makeBaggingWrapper (ovr, 


bw.replace = TRUE, #default 


bw.size = 0.7, 
bw.feats = 1) 


bw.iters = 10, #default of 10 


现在 使 用 这 个 对 象 训练 算法 。 请 注意 ,我 在 代码 中 的 train () 函数 前 面 加 上 了 mlr: : ， 因 为 
caret 包 中 也 有 train() 函数 ， 所 以 要 设 定 使 用 mlr 包 中 的 函数 ， 而 不 是 caret 包 中 的 。 如 果 同 时 加 


























载 了 两 个 包 ， 不 如 前 设置 就 会 导致 严重 的 错误 : 


> set.seed(317) 


> fitOVR <- mlr::train(bag.ovr, wine.task) 
> predOVvR <- predict (fitOVvR, newdata = test) 


结果 如 下 所 示 : 


> head(data.frame (predOVR)) 


truth respons 


60 2 
78 2 
79 2 
49 1 
19 1 
69 2 


> getConfMatrix(predOVvR) 


predicted 

true TL “23 
58 0 0 

2 071 0 

3 0 057 


-SUM- 0 0 0 


e 
2 


hh 上 上 DDN 


-SUM- 


0 


0 
0 
0 


小 菜 一 矶 。 但 别 大 注重 正确 率 ， 应 该 更 注重 创建 分 类 器 、 调 整 超 参数 和 实现 重 抽样 的 策略 和 





方法 [3 
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我 们 还 有 一 块 硬骨头 : 皮 玛 印第安 人 糖 








尿 病 数据 的 分 类 。 和 使 用 caret 包 一 样 ， 你 也 可 以 用 





mlr 包 建立 集成 模型 。 我 也 会 展示 如 何在 学 习 过 程 中 加 入 SMOTE 技 术 , 而 不 只 创建 单独 的 数据 集 。 
首先 , 确认 你 运行 了 本 章 开始 时 的 代码 , 创建 训练 集 和 测试 集 。 我 在 这 里 暂停 一 下 ,以便 你 


完成 这 个 操作 。 


好 的 ， 和 前 面 一 样 ， 创 建 训练 集 的 task 对 象 





> pima.task <- makeClassifTask(id 


"type" ) 


"pima", data = train, target = 
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此 处 的 smote () 函数 和 前 面 的 用 法 有 些 不 一 样 。 你 只 需 设 定 少 数 类 过 采样 的 比率 和 K 最 近邻 
的 数量 。 我 们 基于 3 个 最 近邻 来 使 少数 类 ( Yes ) 加 倍 : 


> pima.smote <- smote(pima.task, rate = 2, nn = 3) 


> str(getTaskData (pima.smote)) 
'data.frame': 533 obs. of 8 variables: 


现在 训练 集中 有 533 个 观测 ， 而 不 是 初始 的 400 个 。 为 了 完成 集成 模型 的 融合 ,我 们 要 建立 
3 个 基础 模型 ( 随机 和 森林、 二 次 判别 分 析 和 带 有 LI 惩罚 项 的 GLM )。 以 下 代码 将 它们 组 合 在 一 
起 作为 基础 模型 ， 如 果 你 愿意 ， 也 可 以 加 入 一 个 学 习 咒 ， 并 确保 使 用 基础 模型 的 预测 概率 作为 
输入 特征 : 


> base <- c("classif.randomForest", "classif.gqda", classif.glmnet") 

















> learns <- lapply(base, makeLearner) 


> learns <- lapply(learns, setPredictType, "prob") 
融合 模型 是 一 个 简单 的 GLM 模 型 ， 它 的 系数 是 通过 交叉 验证 调整 得 来 的 。 软 件 包 的 默认 设 
置 是 使 用 5 折 交 又 验证 : 


> sl <- makeStackedLearner(base.learners = learns, 















































super.learner = "classif.]logreg", 
predict.type = "prob", 
method = "stack.cv") 














这 样 即 可 训练 基础 模型 和 融合 模型 。 如 果 你 觉得 合适 ， 可 以 选择 加 入 重 抽样 和 调 优 包装 器 ， 
就 像 我 们 在 前 一 节 做 的 那样 。 这 个 例子 使 用 默认 设置 即 可 。 测 试 集 上 的 训练 和 预测 也 是 一 样 的 : 
































> slFit <- mlr::train(sl, pima.smote) 
> predFit <- predict(slFit, newdata = test) 


> getConfMatrix(predFit) 


predicted 
true No Yes -SUM- 
No 70 18 18 
Yes 15 29 15 
-SUM- 15 18 33 
> performance (predFit, measures = list(mmce, acc, auc)) 
mmce acc auc 


0 .25 0.75 0.7874483 
通过 这 些 努 力 , 我 们 只 得 到 了 75% 的 正确 率 , AUC 与 用 caretEnsemble 包 建立 的 集成 模型 相 比 ， 
还 差 了 那么 一 点 点 ， 因 为 我 们 使 用 了 不 同 的 基础 学 习 器 。 所 以 ， 又 回 到 前 面 的 问题 了 : 你 能 改善 
这 个 结果 吗 ? 请 让 我 知道 你 的 努力 与 成 果 。 








ee 
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本 章 先 介绍 了 通过 融合 方法 建立 集成 模型 这 一 非常 重要 的 机 需 学 习 方 法 , 然后 讨论 了 多 类 分 
类 问题 。 在 融合 方法 中 , 我们 使 用 基础 模型 (学习 器 ) 预测 概率 ， 并 使 用 这 些 概率 作为 另 一 个 模 
型 (超级 学 习 器 ) 的 输入 特征 来 做 出 最 终 预 测 。 融 合 模型 与 单独 的 基础 模型 相 比 ， 确 实在 性 能 
有 所 提高 。 对 于 多 类 分 类 方法 , 我 们 既 介 绍 了 其 使 用 方法 , 也 讲解 了 如 何 通过 一 对 多 技术 将 二 值 
分 类 方法 应 用 于 多 类 分 类 问题 。 我 们 还 顺便 介绍 了 两 种 可 以 平衡 类 别 的 抽样 技术 ( 上 采样 与 合成 
少数 类 过 采样 技术 )。 此 外 的 重要 内 容 就 是 两 种 功能 强大 的 R 包 caretEnsemble 和 mlr 的 使 用 方法 ， 
这 些 方法 和 程序 包 对 于 R 机 器 学 习 实 践 者 来 说 都 是 非常 强大 的 辅助 工具 。 


下 一 章 将 进入 时 间 序 列 与 因果 关系 的 世界 。 在 我 看 来 , 时 间 序 列 分 析 是 最 容易 被 误解 和 忽视 
的 机 带 学 习 领 域 之 一 。 学 完 下 一 章 ， 你 将 可 以 帮助 我 们 的 同行 尽快 消除 这 一 误解 。 









































时 间 友 列 与 因果 关系 








“经 济 学 家 总 是 要 到 明天 才能 知道 为 什么 昨天 预言 的 事情 没有 在 今天 发 生 。” 
一 一 劳伦斯 :彼得 


单 变 量 时 间 序 列 就 是 按照 标准 的 时 间 间 隔 进行 收集 的 测量 结果 , 时 间 间 隅 可 以 是 分 钟 、 小 时 、 
天 、 周 或 者 月 。 时 间 序 列 与 使 用 其 他 方式 收集 的 数据 相 比 具有 特殊 的 问题 ， 因 为 观测 顺序 非常 重 
要 。 这 种 对 观测 顺序 的 依赖 会 使 标准 分 析 方 法 产生 不 必要 的 偏差 和 方差 。 


在 机 器 学 习 中 ， 时 间 序 列 数据 看 上 去 非常 枯燥 无 味 。 不 幸 的 是 ， 太 多 实际 数据 和 时 间 相 关 ， 
而 且 时 间 序 列 分 析 可 能 会 非常 复杂 和 棘手 。 可 以 说 ， 如 果 你 没有 见 过 糟糕 的 时 间 序 列 分 析 , 那 肯 
定 是 因为 你 没有 仔细 研究 过 它 。 


男 一 个 存在 于 时 间 序 列 中 但 经 常 被 忽视 的 问题 是 因果 关系 。 是 的 , 我 们 没有 将 相关 性 和 因果 
关系 混为一谈 , 但 是 在 时 间 序 列 分 析 中 , 可 以 使 用 格 兰 杰 因果 关系 模型 这 样 的 技术 来 确定 是 否 存 
在 统计 角度 的 因果 关系 。 


本 章 要 应 用 时 间 序 列 (或 计量 2 量 预 测 模型 、 向 量 自 回 归 模 型 ， 以 及 最 
后 的 格 兰 杰 因果 关系 模型 。 结束 本 章 之 后 ,你 可 能 算 不 上 时 间 序 列 分 析 大 师 , 但 你 的 知识 已 经 足 
以 进行 有 效 分 析 , 并 且 可 以 ww 在 建立 时 间 序 列 模型 和 预测 模型 
时 要 考虑 的 。 
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12.1 单 变量 时 间 序 列 分 析 


我 们 着 重 讨论 两 种 分 析 和 预测 单 变量 时 间 序 列 的 方法 : 指数 平滑 和 自 回 归 移 动 平 均 模型 。 先 
从 指数 平滑 方法 开始 。 


与 移动 平均 模型 相似 ， 指 数 平滑 模型 对 过 去 的 观测 进行 加 权 。 但 和 移动 平均 模型 不 同 的 是 ， 
在 指数 平滑 模型 中 ， 相 对 于 更 远 期 的 观测 来 说 ， 越 是 近期 的 观测 ， 所 得 的 权重 越 高 。 有 3 个 可 能 
的 平滑 参数 需要 估计 : 整体 平滑 参数 、 趋 势 参 数 和 平滑 参数 。 如 果 不 存 在 趋势 或 季节 性 因素 ， 相 
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应 的 参数 就 失效 。 
平滑 参数 使 用 下 面 的 公式 进行 预测 : 








Yt+1=aY)+( -oY1+( -oYs+…, 当 0<a=!1 


在 这 个 公式 中 ，Y 是 IT 时 刻 的 值 ，o 是 平滑 参数 。 算 法 通过 最 小 化 误差 使 vc〈 和 其 他 参数 ) 达 





到 最 优 ， 可 以 使 用 误差 平方 和 ， 也 可 以 使 用 均 方 误差。 








预测 公式 以 及 趋势 和 季节 性 〈 如 果 可 行 ) 公式 可 以 表示 如 下 。 























汪 | 


口 预测 公式 : A 是 育 
口 趋势 公式 : B,= P(A A,_)+(l PPB! 








期 平滑 公式 ，h 是 预测 阶段 数 ，Yws=A+hBit+ Si 








口 季节 性 公式 : m 为 季节 性 阶段 的 数量 ，S,= 2(Y， 





Ai-1— BD)+(— 1)Sin 


这 个 预测 公式 被 称 为 Holt-Winters 法 。 预 测 公式 本 质 上 是 可 加 的 ， 趋 势 是 线性 的 。 这 种 方法 





也 允许 使 用 阻尼 趋势 和 可 乘 季节 性 , 此 时 的 季节 性 随时 间 的 变化 成 比例 增加 或 减少 。 我 的 经 验 是 ， 





























Holt-Winters 法 可 以 提供 最 好 的 预测 ， 甚 至 比 ARIMA 模 型 还 要 好 。 我 基于 月 度数 据 对 几 百 个 时 间 
序列 进行 了 长 期 预测 才 得 到 这 个 结论 , 在 大 概 90% 的 案例 中 , Holt-Winter 法 产生 的 预测 误差 最 小 。 
此 外 ， 你 也 不 用 担心 比如 ARIMA 模 型 中 的 平稳 性 假设 。 平 稳 性 是 指 时 间 序 列 中 所 有 阶段 都 具有 
固定 的 均值 、 方 差 和 相关 性 。 尽 管 如 此 ， 理 解 掌握 ARIMA 模 型 依然 很 重要 ， 因 为 在 某 些 情况 下 ， 











这 种 模型 表现 最 好 。 
在 自 回归 模型 中 ,时间 T 处 的 Y 值 是 前 一 个 Y 值 的 线 怕 






































式 是 Y,= 常数 + DY,_1+E。 模 型 的 关键 假设 如 下 : 


口 E, 是 独立 同 分 布 的 误差 ,均值 为 0， 方 差 是 一 个 常 
口 误差 与 Y 是 独立 的 ; 























上 函数。 一 阶 自 回归 模型 ( AR(1) ) 的 公 


数 ; 


口 Y、Y-i、 Ye- 是 平稳 的 ， 这 说 明 B 的 绝对 值 小 于 1。 


在 平稳 的 时 间 序 列 中 ， 你 可 以 查看 自 相 关 函 数 。 平 稳 时 间 序 列 中 的 ACF 可 以 给 出 Y 和 Y_ ,之 
间 的 相关 性 ， 其 中 h= 1、2、…、n。 我 们 使 用 R 建 立 并 绘制 一 个 一 阶 自 回归 序列 。 绘 图 时 还 可 以 
查看 ggfortify 包 的 功能 ， 它 可 以 作为 ggplot2 国 数 的 包装 器 : 








> library (ggfortify) 


> set.seed(123) 





> arl <- arima.sim(list(order = c(1, 0, 0), ar = 0.5), n = 200) 


> autoplot(arl, main = "AR1") 


上 述 命令 输出 如 下 页 图 。 
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AR1 















































下 面 检查 ACF : 
> autoplot(acf(arl, plot = F), main = "AR1 - ACE") 
上 述 命令 输出 如 下 。 
AR1 - ACF 
1.00- 
0.7: 
0.50 
LL 
GO 
芯 
0.25 
0.00 ‖ wa ells 
0 5 10 15 20 
Lag 














吉 


ACF 图 中 显示 ， 延 迟 (Lag ) 增加 时 ， 相 关 性 呈 指 数 减少 。 虚 线 表 示 显 著 相 关 性 的 置信 带 
任何 一 条 超出 置信 带 上 界 和 下 界 的 竖 线 都 被 认为 是 显著 的 相关 性 。 除 了 ACEF, 还 可 以 检查 偏 自 相 
关 函 数 。PACF 计 算 的 是 条 件 相关 性 ， 表 示 Y 与 Y wy 之 间 的 相关 性 受 二 者 之 间 的 观测 影响 。 对 条 件 
相关 的 一 种 直观 理解 是 线性 回归 模型 及 其 系数 。 假 设 有 两 个 线性 回归 模型 Y = po+ BiX1 和 Y= po+ 
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BiX1+ BX2。 在 第 一 个 模型 中 , X 和 Y 之 间 的 关系 是 线性 的 ， 可 以 用 一 个 系数 表示 。 但 第 二 个 模型 
中 的 情况 就 不 一 样 了 ， 因 为 必须 考虑 Y 和 X,s 之 间 的 关系 。 请 注意 下 面 的 PACF 图 中 ， 一 阶 偏 自 回 
归 值 和 一 阶 自 回归 值 是 一 样 的 ， 因 为 不 存在 条 件 相关 性 。 


> autoplot (pacf (arl, plot = F), main = "AR1 - PACF") 


上 述 命令 输出 如 下 。 


























AR1 - PACF 
| | ] | I | ] | 
| | | | | | | | | ] | 
0 10 i 1 20 
根据 前 面 的 时 间 序 列 图 ， 我 们 完全 可 以 假设 序列 是 平稳 的 。 在 实际 工作 中 ， 可 以 通过 一 些 
统计 检验 来 确认 数据 是 否 平稳 ,但 通常 仅 凭 肉眼 观察 即 可 。 如 果 数 据 不 是 平稳 的 ， 可 能 需要 对 








数据 进行 差分 来 消除 趋势 。 这 就 是 ARIMA 中 Integrated (1) 的 意义 。 进 行 差分 以 后 ， 新 的 序列 
为 4Y,=YY, 一 Y,_1。 我 们 希望 通过 一 阶 差分 就 可 以 得 到 稳定 性 ， 但 某 些 情况 下 ， 二 阶 差分 是 必 
需 的 。 具有 一 阶 自 回归 (AR(1) ) 和 一 阶 差 分 (I(1) ) 的 ARIMA 模 型 可 以 表示 为 ARIMA(1, 1, 0)。 

MA 代表 移动 平均 。 与 对 股票 价格 进行 50 天 移动 平均 不 同 ， 这 不 是 一 个 简单 的 移动 平均 ， 它 
更 像 是 应 用 在 误差 上 的 一 个 系数 。 当 然 ， 误 差 是 独立 同 分 布 的 ， 均 值 为 0， 方 差 是 一 个 常数 。 一 
阶 移动 平均 ( MA(1) ) 的 公式 为 Y,= 常 数 +Ei+ OE,_1。 和 AR(1) 模 型 一 样 , 可 以 用 R 建 立 一 个 MA(1) 
模型 ， 如 下 所 示 : 


> set.seed(123) 





> mal <- arima.sim(list(order = c(0, 0, 1), ma = -0.5), n = 200) 


> autoplot (mal, main = "MA1") 


上 述 命令 输出 如 下 页 图 。 
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200 





1 1 1 
50 100 150 


， 有 一 条 经 验 法 则 





MA(1) 的 ACF 和 PACF 图 与 AR(1) 模 型 的 有 一 点 区 别 。 请 注意 ， 查 看 图 形 时 
可 以 确定 模型 中 是 否 有 AR 项 和 MA 项 。 这 可 能 稍 嫌 主 观 ， 所 以 你 可 以 逐渐 体会 























， 但 请 相信 ，R 对 





模型 的 判断 是 不 会 错 的 。 通 过 下 面 的 图 可 以 看 到 一 阶 延迟 具有 显著 的 相关 性 , 一 阶 延迟 和 二 阶 延 





迟 中 具有 两 种 显著 的 偏 相 关 性 : 


> autoplot(acf (mal, plot = F) 


main = "MA1 - ACF") 











上 述 命令 输出 如 下 。 

MA1 - ACF 

10- 
0.5 

LL 

G 

所 
0 | | | 1 | | i 证 

| | 
0 10 15 20 

Lag 
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上 页 图 是 ACF 图 ， 下 图 是 PACF 图 |: 





> autoplot (pacf (mal, plot = F), main = "MAl1 - PACF") 





MA1 - PACF 








Lag 
ARIMA 模 型 包括 自 回 归 、 差 分 和 移动 平均 项 ， 也 可 能 包含 季节 性 因素 。 非 季节 性 ARIMA 模 
型 通常 表示 为 (p, d, q)。 在 季节 性 ARIMA 模 型 中 ， 如 果 数 据 是 月 度 的 ， 那 么 可 以 表示 为 (p, d, q) x 
(PB, D, Q)12， 其 中 的 12 表 示 考 虑 了 月 度 季节 性 。 在 我 们 将 要 使 用 的 软件 包 中 ，R 会 自动 识别 是 否 
应 该 包括 季节 性 。 如 果 应 该 ， 它 会 选择 一 个 最 优 项 。 






























































理解 格 兰 杰 因 果 关 系 


假设 有 人 间 你 :“ 对 于 药 X， 新 处 方 上 的 金额 与 全 部 处 方 的 金额 之 间 有 什么 联系 ? ”你 知道 
这 些 金 额 每 月 计算 一 次 , 所 以 如 果 人 们 确信 新 处 方 会 增加 总 处 方 的 金额 , 你 应 该 如 何 理解 它们 之 
间 的 联系 呢 ? 或 者 , 如 何 检 验 假设 “大 宗 商 品 的 价格 一 一 特别 是 铜 一 一 是 美国 股票 市 场 价格 的 首 
要 指标 ”? 如 果 有 两 组 时 间 序 列 数 据 x 和 y, 格 兰 杰 因果 关系 模型 负责 确定 一 个 序列 是 否 会 影响 另 
一 个 序列 中 的 变化 。 它 的 做 法 是 使 用 一 个 序列 中 的 不 同 延迟 序列 为 第 二 个 序列 中 的 变化 建 模 。 要 
达成 这 个 目的 ， 需 要 建立 两 个 模型 以 预测 y， 一 个 模型 只 使 用 y 的 前 期 数据 〈 .2 )， 另 一 个 模型 使 
用 y 的 前 期 数据 和 x (天 ) 模型 如 下 所 示 ， 其 中 [是 时 间 序 列 中 的 延迟 期 数 。 
使 OO=y=A+Py +…+pyre+e 
日 使 x yr=potPiyi-it +pheyert Ay t+ ayert Ee 


然后 ， 比 较 RSS 并 使 用 F 检 验 确定 究竟 是 读 套 模型 ( 2 ) 能 足够 恰当 地 解释 y 的 未 来 值 ， 还 是 
全 模型 (x) 更 好 。F 检 验 用 来 检验 的 原 假设 和 备 择 假设 如 下 所 示 。 
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口 HO: 对 于 所 有 ze [1， fH，ai=0， 无 格 兰 杰 因果 关系 
口 Hl1: 至 少 存在 一 个 ie [1 如， 和 关 0， 有 格 兰 杰 因果 关系 


本 质 上 ， 我 们 试图 确定 能 和 否 在 统计 上 证 明 ， 对 于 y 的 未 来 值 ，x 可 以 比 y 的 前 期 值 提供 更 多 信 
息 。 在 这 个 定义 中 , 很 明显 我 们 不 是 试图 证 明 真正 的 因果 性 ， 而 是 两 个 值 通过 某 种 现象 关联 在 一 
起 。 按 照 这 个 定义 ， 还 必须 反 向 运行 这 个 模型 ， 以 验证 y 没 有 对 x 的 未 来 值 提供 信息 。 如 果 发 现 真 
的 出 现 了 这 种 情形 ， 那 就 很 可 能 存在 一 些 外 生变 量 〈 比如 Z )， 或 者 需要 我 们 控制 ， 或 者 它们 和 y 
或 x 之 间 存 在 更 强 的 格 兰 杰 因果 关系 。 为 了 避免 虚假 结果 ， 应 该 在 稳定 的 时 间 序列 上 进行 处 理 。 
请 注意 , 已 经 有 一 些 研究 性 论文 讨论 了 非 线性 模型 使 用 的 技术 , 但 这 已 经 超出 了 本 书 范围 。 不 过 
我 们 会 从 非 稳定 序列 的 角度 来 研究 它 ， 有 一 篇 精彩 的 介绍 性 论文 是 关于 “ 鸡 生 和 蛋 还 是 蛋 生 鸡 ” 这 
一 历史 悠久 的 难题 的 (Thurman，1988 )。 


有 几 种 不 同 的 方式 可 以 识别 正确 的 延迟 结构 。 当 然 ， 你 可 以 使 用 暴力 算法 ,不 分 青红皂白 地 



























































对 这 个 问题 具有 一 定 的 理性 直觉 。 如 果 没 有 ， 就 要 使 用 向 量 自 回归 确定 延迟 结构 ， 此 时 要 使 用 最 
小 信息 准则 ， 比 如 赤 池 信息 准则 或 最 终 预 测 误差 。 为 简单 起 见 , 下 面 给 出 了 双 变 量 VAR 模 型 的 表 
示 方 法 ， 其 中 每 个 变量 只 包含 一 阶 延 迟 。 这 种 表示 方法 可 以 扩展 为 任意 数量 的 变量 和 延迟 : 


























口 Y= 常数/+ BnYii+P2Xiit+el 
口 义 = 常数 ,+ ByYi1+ PXi1+ es 


在 R 中 可 以 非常 简单 地 实现 这 个 过 程 ， 如 下 面 的 实际 案例 所 示 。 
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“地 球 永远 都 在 那里 。 是 我 们 ! 要 灭绝 的 是 我 们 自己 。” 





乔治 . 卡 林 ， 哲 学 家 、 喜 剧 演员 


气候 正在 发 生变 化 ， 过 去 和 未 来 一 直 如 此 ， 但 重要 ( 至少 从 政治 和 经 济 的 角度 看 是 重要 的 ) 
的 问题 是 , 气候 变化 是 人 为 的 吗 ? 本 节 将 使 用 计量 经 济 学 时 间 序 列 模 型 进行 实验 ,以 确定 碳 排 放 
量 是 否 可 以 引起 (统计 意义 上 的 ) 气候 变化 ， 更 确切 地 说 ,使 温度 升 高 。 我 个 人 在 这 个 问题 上 持 
中 立 态度 ， 我 永远 也 不 会 忘记 卡 林 先生 在 关于 这 个 问题 的 演讲 中 为 我 们 留 下 的 警示 。 

第 一 件 事 就 是 找到 并 收集 数据 。 对 于 温度 数据 ， 应 该 选择 HadCRUT4 年 度 温度 中 位 数 时 间 序 
列 ， 这 可 能 是 温度 的 黄金 标准 。 这 份 数据 由 东 英 吉利 大 学 气候 研究 所 和 英国 气象 局 哈 德 莱 研 究 中 心 
合作 编制 ， 关 于 数据 编制 和 模型 化 的 完整 介绍 可 以 参考 http://www.metoffice.gov.uk/hadobs/index.html。 

我 们 将 要 使 用 的 数据 记录 的 是 年 度 异常 数据 , 它 由 某 一 年 的 年 度 地 表 温 度 中 位 数 与 参考 年 度 
( 1961~1990 ) 平均 温度 的 差 构 成 。 年 度 地 表 温 度 是 一 个 综合 体 ， 它 由 来 自 CRUTEM4 地 表 空 气温 
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度数 据 集 和 HadSST3 海 洋 表面 温度 数据 集 的 全 球 各 地 温度 混合 而 成 。 这 份 数 据 最 近 遭 到 了 质疑 ， 
人 们 认为 它 具 有 偏差 .不 那么 可 靠 ， 详情 参 见 http://www.telegraph.co.uk/comment/11561629/Top- 
scientists-start-to-examine-fiddle-global-warming-figures.html。 这 种 质疑 与 我 们 本 节 的 工作 无 关 , 必 
须 接受 并 使 用 这 份 数 据 。 我 抓 下 的 数据 时 间 跨 度 为 1919 年 3 月 ~2013 年 ,用 来 匹配 二 氧化 碳 的 数据 。 


全 球 二 氧化 碳 排 放量 的 估计 可 以 在 美国 能 源 部 二 氧化 碳 信 息 分 析 中 心 的 网 站 ( http://cdiac. 
ornl.gov/ ) 上 找到 。 


























我 将 数据 放 在 一 个 .csv 文 件 ( climate.csv ) 中 ， 供 你 下 载 并 保存 到 工作 目录 。 文 件 地 址 为 
https://github.com/datameister66/data/。 


加 载 这 个 文件 ， 检 查 数 据 结 构 : 
> climate <- read.csv("climate.csv", stringsAsFactors = F) 


> str(climate) 
'data.frame': 95 obs. of 3 variables: 
$ Year: int 1919 1920 1921 1922 1923 1924 1925 1926 1927 1928 ... 
$ CO2 : int 806 932 803 845 970 963 975 983 1062 1065 ... 
$ Temp: num -0.272 -0.241 -0.187 -0.301 -0.272 -0.292 -0.214 
-0.105 -0.208 -0.206 ... 


将 其 转换 为 时 间 序 列 结构 ， 指 定 开始 年 份 和 结束 年 份 : 


> climate <- ts(climate[, 2:3], frequency = 12, 
start = 1919, end = 2013) 


> head(climate) 


CO2 Temp 
[1,] 806 -0.272 
[2,] 932 -0.241 
[3,] 803 -0.187 
[4,] 845 -0.301 
[5,] 970 -0.272 
[6,] 963 -0.292 


加 载 完 数据 并 转换 为 时 间 序 列 结构 之 后 ， 进 行 分 析 之 前 的 数据 理解 和 数据 准备 。 





数据 理解 与 数据 准备 
要 进行 数据 理解 和 准备 ， 只 需 加 载 两 个 R 包 ， 但 要 确定 它们 已 经 安装 在 你 的 系统 中 : 
> library (forecast) 


> library (tseries) 


首先 绘制 两 个 时 间 序 列 : 





> autoplot (climate) 
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) 术 分 人 
上 述 命令 输出 如 下 。 
climate 
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从 图 中 可 以 看 出 , 二 氧化 碳 排 放水 平 确实 在 第 二 次 世界 大 战 后 开始 增长 , 温度 的 异常 变化 大 
约 发 生存 20 世 纪 70 年 代 中 期 , 那 时 开始 急剧 升 高 。 没有 明显 的 异常 值 , 不 同时 间 的 方差 看 上 去 也 
是 个 固定 值 。 通 过 标准 的 分 析 过 程 可 以 知道 ， 两 个 序列 是 高 度 相关 的 ， 如 下 所 示 : 
































> cor(climate) 

CO2 Temp 
CoO2 1.0000000 0.8404215 
Temp 0.8404215 1.0000000 


如 前 所 述 ， 还 不 到 庆祝 的 时 候 ， 因 为 这 根本 说 明 不 了 什么 问题 。 绘 制 两 个 序列 的 ACF 图 和 
PACF 图 ， 青 看 看 序列 结构 : 


> autoplot(acf(climate[, 2], plot = F), main="Temp ACF") 


上 述 代码 片段 输出 如 下 。 





Temp ACF 


1.00- 
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下 面 的 代码 可 以 绘制 温度 的 PACF 图 : 





> autoplot (pacf (climate[, 2], plot = F), main = "Temp PACF") 


上 述 代 码 片段 输出 如 下 。 





Temp PACF 
0.9- 


ACF 














这 行 代码 绘制 二 氧化 碳 排 放量 的 ACF 图 : 


> autopl 





ot(acf (climate[, 1], plot = F), main = "CO2 ACF") 


上 述 代码 片段 输出 如 下 。 


这 行 代码 



































CO2 ACF 

1.00- 
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02 

0.00- 

0 10 1 
Lag 














绘制 二 氧化 碳 排放 量 的 PACF 图 : 


> autoplot (pacf (climate[, 1], plot = F), main = "CO2 PACF") 


上 述 代码 


片段 输出 如 下 页 图 。 
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CO2 PACF 


1.00- 



































ACF 模 式 是 逐渐 衰减 的 ，PACF 模 式 则 是 快速 衰减 的 。 可 以 假设 这 两 个 序列 都 是 自 回归 的 ， 
尽管 温度 中 看 上 去 存在 明显 的 MA 项 。 下 一 步 检查 交叉 相关 函数 。 请 注意 , 在 函数 中 ,要 把 x 放 在 
y 的 前 面 : 


> ccf(climate[, 1], climate[, 2], main = "CCF") 








CCF 









































CCF 图 展示 了 温度 和 二 氧化 碳 延 迟 序 列 之 间 的 相关 性 。 如 果 x 变 量 的 负 延 迟 序 列 具 有 强 相关 pn 
性 ， 则 x 领先 于 y; 如 果 x 变 量 的 正 延 迟 序列 具有 强 相关 性 ， 则 x* 沸 后 于 >。 此 处 可 以 看 到 ， 二 氧化 

碳 既是 个 领先 变量 , 也 是 个 滞后 变量 。 对 于 这 个 分 析 , 我 们 乐于 见 到 前 者 , 对 于 后 者 就 比较 头疼 。 

我 们 会 在 VAR ( 向 量 自 回归 ) 和 格 兰 杰 因 果 关 系 分 析 过 程 中 确定 这 个 问题 是 否 严重 。 


此 外 还 要 检验 数据 是 否 平稳 。 可 以 通过 tseries 包 中 提供 的 扩展 迪 基 -和 福 勒 检验 实现 这 个 操作 ， 
使 用 aaf .test () 函数 ， 如 下 所 示 : 
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> adf.test(climate[, 1]) 
Augmented Dickey-Fuller Test 
data: climate[, 1] 
Dickey-Fuller = -1.1519, Lag order = 4, p-value = 
0.9101 
alternative hypothesis: stationary 
> adf.test(climate[, 2]) 
Augmented Dickey-Fuller Test 
data: climate[, 2] 
Dickey-Fuller = -1.8106, Lag order = 4, p-value = 


0.6546 
alternative hypothesis: stationary 


可 以 看 到 ， 对 于 这 两 个 序列 ，p 值 都 是 不 显著 的 ， 所 以 不 能 拒绝 原 假设 ( 数据 是 不 稳定 的 )。 
进行 数据 探索 之 后 ， 下 面 开始 建 模 阶 段 ， 首 先 对 温度 异常 数据 使 用 单 变量 分 析 技 术 。 
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模型 构建 与 评价 这 一 步骤 主要 有 三 项 任务 : 第 一 , 建立 一 个 仅 应 用 于 温度 数据 的 单 变量 预测 











模型 ; 第 二 ， 基 于 温度 数据 本 身 和 二 氧化 碳 排放 量 数 据 建立 一 个 温度 数据 的 回归 模型 ; 第 三 , 使 


月 








这 个 模型 的 输出 揭示 二 氧化 碳 排放 量 和 地 表 温 度 异常 之 间 是 否 存 在 格 兰 杰 因果 关系 。 


12.3.1 变量 时 间 序 列 预 测 


























这 项 任务 的 目标 是 为 地 表 温 度 建立 一 个 单 变量 预测 模型 ， 重 点 在 于 选择 Holt 线 性 趋势 模型 还 














是 ARIMA 模 型 。 就 像 在 其 他 学 习 技术 中 做 的 那样 ， 我 们 要 训 练 模型 ， 并 确定 模型 在 测试 集 上 的 
预测 准确 度 , 测试 集 与 训练 集 使 用 不 同 的 时 间 序 列 。 下 面 的 代码 创建 了 温度 数据 子 集 以 及 训练 集 























和 测试 集 ， 时 间 从 二 战 后 开始 : 


> temp <- climate[, 2] 
> temp <- climate[, 2] 
> train <- window(temp, start = 1946, end = 2003) 


> test <- window(temp, start = 2004) 


为 了 建立 平滑 模型 , 可 以 使 用 forecast 包 中 的 holt () 函数 。 我们 要 建立 2 个 模型 , 一 个 有 阻尼 


趋势 ， 另 一 个 则 没有 。 在 这 个 函数 中 ， 需 要 指定 时 间 序 列 、 预 测 阶段 数量 ， 以 及 选择 初始 状态 
值 的 方法 ( "optimal "或 者 "simple" ), 还 有 是 否 需要 阻尼 趋势 .选择 初始 状态 值 时 , "optimal" 
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表示 算法 会 找 出 最 优 的 初始 值 以 及 平滑 参数 , "simple" 表 示 使 用 开始 的 几 个 观测 来 计算 初始 值 。 
在 forecast 包 中 可 以 使 用 ets () 函数 ,， 它 能 够 找 出 所 有 最 优 参数 。 但 在 这 个 案例 中 , 我 们 依然 使 用 
holt () 函数 ， 因 为 这 样 可 以 进行 比较 。 现 在 ， 建 立 没 有 阻尼 趋势 的 holt 模 型 ， 如 下 所 示 : 





> fit.holt <- holt(train, h = 10, initial = "optimal") 


绘制 预测 值 ， 看 看 模型 在 样本 外 数据 上 的 预测 效果 : 


> plot (forecast (fit .holt)) 























> lines(test, type = "o") 
Y ~ ~ 人、 
上 述 代 码 输出 如 下 。 
Forecasts from Holts method 
吧 了 
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So 
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看 上 去 ， 这 张 图 中 的 预测 值 表 现 出 轻微 的 线性 上 升 趋势 。 下 面 加 上 阻尼 趋势 ， 如 下 所 示 : 








> fit.holtd <- holt(train, h = 10, initial = "optimal", damped = 
TRUE) 
> plot (forecast (fit.holtd),main = "Holt Damped") 
> lines(test, type = "o") 
上 述 代码 输出 如 下 。 
Holt Damped 





02 00 02 04 06 08 10 
1 1 
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在 单 变 量 分 析 的 最 后 ， 建 立 一 个 ARIMA 模 型 ， 使 用 forecast 包 中 的 auto.arima() 函数 。 这 
个 函数 中 有 很 多 选项 可 以 设置 ， 然 而 你 可 以 仅 指定 时 间 序列 数据 ， 它 会 自己 找到 最 优 的 ARIMA 
拟 合 : 








> fit.arima <- auto.arima(train) 
> summary (fit .arima) 

Series: train 

ARIMA(0,1,1) with drift 


Coefficients: 
mal drift 
-0.6949 0.0094 
s.e. 0.1041 0.0047 


从 简化 过 的 输出 可 知 ， 函 数 选择 的 模型 是 MA = 1、I= 1， 也 就 是 带 有 漂移 项 ( 等 价 于 截 距 ) 
的 ARIMA(0, 1, 1)。 和 前 面 一 样 ， 可 以 通过 图 形 检查 它 在 测试 数据 上 的 表现 : 




















> plot (forecast (fit.arima, h = 10)) 


> lines(test, type="o") 


上 述 代码 输出 如 下 。 





Forecasts from ARIMA(0,1,1) with drift 
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这 个 图 与 不 带 阻 尼 趋 势 的 holt 方 法 非常 相似 。 通 过 下 面 的 代码 ， 可 以 为 每 种 模型 打分 ， 找 出 
具有 最 低 误 差 ， 即 平均 绝对 百 分 误 差 的 模型 : 


> mapeHOLT <- Sum(abs((test - fit.holt$mean)/test))/10 





> mapeHOLT 
[1] 0.105813 


> mapeHOLTD <- sum(abs((test - fit.holtd$mean)/test))/10 


> mapeHOLTD 
[1] 0.2220256 


> mapeARIMA <- Sum(abs((test - forecast (fit.arima，h = 
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10) $mean)/test))/10 


> mapeARIMA 
[1] 0.1034813 


与 holt 方 法 相 比 ，ARIMA(0, 1, 1) 的 预测 误差 要 稍 小 一 些 。 很 显然 , 带 有 阻尼 趋势 的 模型 表现 
最 差 。 


通过 统计 检验 和 可 视 化 证 据 ， 单 变量 预测 模型 的 最 好 选择 似乎 是 ARIMA 模 型 。 


这 样 就 完成 了 对 地 表 温 度 异 常 单 变量 预测 模型 的 构建 , 然后 进行 下 一 项 任务 , 看 看 二 氧化 碳 
排放 水 平 是 否 会 引起 这 些 异 常 。 









































12.3.2 ”检查 因果 关系 


我 认为 本 节 最 能 体现 序列 分 析 技术 的 价值 ,我 们 会 将 因果 关系 与 相关 性 区 别 开 来 ,当然 , 此 
处 的 因果 关系 是 统计 意义 上 的 。 我 们 不 是 第 一 个 将 格 兰 杰 因果 关系 应 用 于 碳 排放 问题 的 研究 团 
队 。Triacca (2005 ) 发 现 , 没有 明显 的 证 据 能 够 证 明 大 气 中 的 二 氧化 碳 量 与 地 表 温 度 异 常 之 间 存 
在 格 兰 杰 因果 关系 。 而 另 一 方面 ，Kodra ( 2010 ) 的 结论 则 认为 二 者 之 间 存 在 因果 关系 ， 但 他 同 
时 发 表 了 一 个 附加 说 明 ， 提 示 他 的 数据 是 不 平稳 的 ， 其 至 在 二 阶 差 分 之 后 也 是 如 此 。 我们 的 努力 
不 是 为 了 平息 争论 ,而 是 希望 鼓励 你 将 方法 理论 应 用 于 实际 工作 。 本 节 内 容 完全 可 以 为 格 兰 杰 因 
果 关 系 模型 提供 一 次 有 效 的 实战 练习 。 

我 们 的 计划 是 ， 首 先 演示 残 差 受到 自 相 关 《〈 也 称 为 序列 相关 ) 影响 而 导致 的 虚假 线性 回归 。 
然后 , 研究 两 种 实现 格 兰 杰 因果 关系 模型 的 不 同方 法 。 第 一 种 是 传统 方法 ,其 中 两 个 序列 都 是 平 
稳 的 。 此 后 看 看 Toda 和 Yamamoto( 1995 ) 提出 的 方法 ,这 种 方法 可 以 应 用 于 原始 数据 (有 时 也 
称 为 “水 平 ”)。 

1. 线性 回归 

我 们 从 虚假 线性 回归 开始 。 在 现实 世界 中 ,这 种 情况 我 已 经 司空 见 惯 。 下 面 简单 建立 一 个 线 
性 模型 ， 并 检查 结果 : 


> fit.lm <- lm(Temp ~ CO2, data = climate) 




























































































> summary (fit.1m) 


Call: 
lm(formula = Temp ~ CO2, data = climate) 


Residuals: 
Min 1Q Median 3Q Max 
-0.36411 -0.08986 0.00011 0.09475 0.28763 


Coefficients: 
Estimate Std. Error 七 value Pr(>|It|) 
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(Intercept) -2.430e-01 2.357e-02 -10.31 <2e-16 *** 
CO2 7.548e-05 5.047e-06 14.96 <2e-16 *** 


Signif. codes: 
0 '*x#x' O0.001 x*#r 0.01 '*' 0.05 '.' 0.1 '， ，1 


Residual standard error: 0.1299 on 93 degrees of freedom 
Multiple R-squared: 0.7063, Adjusted R-squared: 0.7032 
F-statistic: 223.7 on 1 and 93 DF, p-value: < 2.2e-16 


请 注意 ， 所 有 统计 量 都 是 显著 的 ,修正 R 方 的 值 是 0.7。 好 吧 ， 二 氧化 碳水 平 与 温度 变化 高 度 
相关 ,但 是 根据 Granger 和 Newbold( 1974 ) 的 论述 ， 这 一 切 都 没什么 意义 。 再 说 一 次 ,我 见 过 很 
多 具有 高 学 位 的 人 在 会 议 上 使 用 这 样 的 结果 自 吹 自 播 ， 每 次 我 都 忍 不 住 做 “坏人 ”， 对 这 种 结果 
提 } 六 


可 以 绘制 序列 相关 性 ， 首 先是 残 差 的 时 间 序 列 图 ， 能 够 看 出 残 差 具有 明显 的 模式 : 



































> plot.ts(fit.lmsresiduals) 

















上 述 代 码 输出 如 下 。 
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然后 创建 一 幅 ACF 图 ， 可 以 看 出 ， 直 到 10 阶 延迟 序列 ， 都 具有 显著 的 自 相 关 : 


和 








> acf (fit.lm$residuals) 
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可 以 对 自 相 关 性 使 用 Durbin-Watson 检 验 。 这 个 检验 的 原 假设 是 “不 存在 自 相 关 ”: 
> dwtest (fit.1m) 
Durbin-Watson test 


data: fit.1lm 
DW = 0.77425, p-value = 4.468e-12 
alternative hypothesis: true autocorrelation is greater than 0 


从 对 图 形 的 检查 可 以 知道 , 这 个 结果 没有 什么 可 奇怪 的 , 我 们 完全 可 以 拒绝 “没有 自 相 关 性 ” 
的 原 假设 。 as 是 , 在 相关 的 时 间 序 列 中 加 入 延迟 变量 ,使 所 有 数据 具有 稳定 
性 。 下 面 进行 这 样 的 处 理 ， 使 用 向 量 自 回归 找 出 适当 的 延迟 结构 ， 加 入 我 们 的 因果 关系 模型 。 


2. 向 量 自 回归 


通过 前 面 的 章节 我 们 知道 ,温度 数据 是 平稳 的 ,二 氧化 碳 数据 则 需要 一 阶 差 分 。 另 一 种 可 以 
表示 这 种 情况 的 简单 方法 是 ， 使 用 forecast 包 提供 的 naiffs () 函数 。 从 它 的 输出 中 可 以 找 出 使 数 
据 平稳 所 需 的 最 小 差分 次 数 。 在 这 个 函数 中 ,你 可 以 选择 3 种 可 用 的 检验 方法 之 一 ,这 3 种 检验 方 
法 分 别 是 : Kwiatkowski, Philips, Schmidt & Shin (KPSS )、Augmented Dickey Fuller (ADF ) 
和 Philips-Peron( PP )。 在 下 面 的 代码 中 , 我 将 使 用 ADF 方 法 , 它 的 原 假设 认为 数据 是 不 平稳 的 : 






























































> ndiffs(climate[, 1], test = "adf") 

[1] 1 

> ndiffs(climate[, 2], test = "adf") 

[1] 1 

在 两 个 序列 中 ,一 阶 差分 即 可 使 数据 稳定 。 首 先 建立 差分 , 然后 完成 传统 方法 ,其 中 两 个 序 











列 都 是 稳定 的 。 要 进行 这 个 练习 ， 依 然 要 先 加 载 软件 包 : 
> library (vars) 
> library (aod) 
> climateDiff <- diff(climate) 


> climateDiff <- window(climateDiff, start = 1946) 


> head(climateDiff) 
CO2 Temp 
[1; 78 -0.099 





] 
[2,] 154 0.034 
[3，] 77 0.001 
[4,] -50 -0.035 
[5,] 211 -0.100 
[6,] 137 0.121 





现在 的 重点 是 ， 使 用 向 量 自 回归 在 信息 准则 的 基础 上 确定 最 优 的 延迟 结构 ， 可 以 使 用 vars 包 
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中 的 VARselect () 因数 完成 。 只 需 在 函数 中 指定 数据 ， 并 用 lag.max = x 指定 模型 中 延迟 的 最 
大 数量 即 可 。 我 们 设 定 最 大 延迟 数量 为 12: 


> lag.select <- VARselect (climateDiff, lag.max = 12) 


> lag.select$selection 
AIC(n) HQ(n) SC(n) FPE(n) 
5 主 1 5 


可 以 使 用 lag$selection 调 用 信息 准则 ,有 4 种 不 同 的 信息 准则 : AIC、Hannan-Quinn Criterion 
(HQ )、Schwarz-Bayes Criterion (SC ) 和 FPE。 请 注意 ， 第 2 章 已 经 介绍 过 AIC 和 SC， 所 以 此 
处 不 再 具体 介绍 它们 的 公式 和 区 别 。 如 果 你 想 看 看 每 种 延迟 的 实际 结果 , 可 以 使 用 lag$criteria。 能 
够 看 到 ,AIC 和 FPE 都 选择 了 5 阶 延迟 作为 VAR 模 型 的 最 优 结构 , HQ 和 SC 则 选择 了 一 阶 延迟 。 看 上 
去 应 该 使 用 $ 年 的 延迟 ， 我 们 使 用 var () 函数 建立 这 个 $ 阶 延迟 模型 。 一 阶 延 迟 模型 就 交 给 你 了 : 
































> fitl <- VAR(climateDiff, p = 5) 


上 述 代码 的 摘要 结果 非常 长 ， 因 为 它 建立 了 两 个 单独 的 模型 ， 这 个 结果 可 能 会 占 满 两 页 纸 。 
我 在 这 里 提供 的 是 一 个 简化 的 输出 ， 表 示 温 度 的 预测 结 








> summary (fit1) 

Residual standard error: 0.1006 on 52 degrees of freedom 
Multiple R-Squared: 0.4509, Adjusted R-squared: 0.3453 
F-statistic: 4.27 on 10 and 52 DF, p-value: 0.0002326 


模型 是 显著 的 ， 修 正 R 方 为 0.35。 

和 前 一 节 一 样 ， 需 要 检查 序列 相关 性 。VAR 包 提供 了 serial.test() 函数 进行 多 变量 自 相 
关 检 验 ， 它 可 以 进行 几 种 不 同 的 检验 ， 我 们 重点 进行 Portmanteau 检 验 。 还 要 注意 ，DW 检 验 只 适 
用 于 单 变量 序列 。Portmanteau 检 验 的 原 假设 认为 自 相 关 为 0， 备 择 假设 认为 自 相 关 不 为 0: 


> Serial.test(Eit1，type = "PT.asymptotic") 

















Portmanteau Test (asymptotic) 


data: Residuals of VAR object fit1l 
Chi-squared = 35.912, df = 44, p-value = 0.8021 


0.3481 的 p 值 让 我 们 没有 证 据 拒绝 原 假 设 ， 可 以 认为 残 差 中 不 存在 自 相 关 。 一 阶 延 迟 模型 的 
检验 结果 如 何 ? 


要 在 R 中 进行 格 兰 杰 因果 关系 检验 ， 可 以 使 用 Imtest 包 提供 的 Grangertest () 函数 ， 也 可 以 
使 用 vars 包 提供 的 causality () 函数 。 我 将 演示 如 何 使 用 causality () 函数 。 非 常 简单 ， 因 为 
你 只 需要 建立 两 个 对 象 ， 一 个 表示 x3 引 发 y»， 一 个 表示 y3 引 | 发， 然后 使 用 前 面 生成 的 fit1 对 象 : 





























> x2y <- causality(fiti, cause = "CO2") 


> y2x <- causality(fitl, cause = "Temp") 
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现在 ， 进 行 格 兰 杰 检验 将 非常 简单 : 
> x2y$Granger 


Granger causality HO0: CO2 diff do not Granger-cause 
climate2 .temp 


data: VAR object fit1 
F-Test = 2.2069, df1 = 5, df2 = 104, p-value = 0.05908 


> y2x$Granger 


Granger causality H0O: climate2.temp do not Granger-cause 
CO2_qdiff 


data: VAR object fit1 
F-Test = 0.66783, dfl1 = 5, df2 = 104, p-value = 0.6487 


“二 氧化 碳 变化 是 引发 温度 变化 的 格 兰 杰 原因 ”的 p 值 为 0.05908， 男 一 个 方向 则 是 不 显著 的 。 
这 能 说 明 什 么 问题 呢 ?” 首 先 ， 可 以 认为 y 不 是 引发 x 的 原因 。 至 于 x 引发 y， 我 们 不 能 在 0.05 的 显著 
生 水 平 上 拒绝 原 假设 。 所 以 ， 可 以 得 出 结论 : x 不 是 y 的 格 兰 杰 原因 。 但 是 ,这 就 是 最 终结 论 吗 ? 
别 忘 了 ，p 值 的 意义 就 是 当 原 假设 为 真 时 出 现 样 本 情况 的 概率 。 还 有 ， 我 们 的 检验 从 来 没有 设计 
为 那 种 非 此 即 彼 的 情况 。 如 有 果 这 是 一 个 受 控 实 验 ， 比 如 美国 食品 与 药物 管理 局 进行 的 三 阶段 临床 
实验 , 那么 我 们 可 以 毫 不 犹 水 地 宣布 没有 足够 的 证 据 拒 绝 原 假设 。 因为 我 们 的 研究 是 基于 观测 性 
数据 的 ， 所 以 我 相信 ， 可 以 认为 “二 氧化 碳 排放 量 非常 可 能 是 地 表 温 度 异常 的 格 兰 杰 原因 ”。 尽 
管 如 此 ,这 个 结论 还 是 给 批评 者 留 下 了 很 大 的 空间 ， 比 如 前 面 提 到 的 关于 数据 质量 的 争议 。 还 在 
困扰 我 的 一 件 事 是 ,应 该 从 哪 一 年 开始 分 析 。 我 选择 1945 年 是 因为 看 上 去 应 该 如 此 ,用 SAS 的 术 
语 来 说 ， 这 是 调用 了 一 个 “眼球 过 程 ”。 选 择 从 哪 一 年 开始 对 我 们 的 分 析 具 有 巨大 的 影响 : 这 会 
改变 延迟 结构 ， 还 会 导致 不 显著 的 p 值 。 


但 是 , 我 们 还 需要 使 用 男 外 一 种 格 兰 杰 因 果 关 系 技术 来 为 初始 的 二 氧化 碳 排 放 数据 建 模 。 找 
到 正确 延迟 数量 的 过 程 和 前 面 基 本 一 样 ， 区 别 在 于 不 需要 使 数据 平稳 ; 


> climateLevels <- window(climate, start = 1946) 
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> level.select <- VARselect (climateLevels, lag.max = 12) 


> level.select$selection 
AIC(n) HQ(n) SC(n) FPE(n) 
10 1 1 6 
尝试 一 下 6 阶 延 迟 结构 ， 看 看 能 否 得 到 显著 的 结果 ， 记 得 要 加 上 一 个 额外 的 延迟 来 表示 差分 
序列 。 对 这 种 技术 的 讨论 以 及 需要 使 用 这 种 技术 的 原因 可 以 参考 http://davegiles.blogspot.de/ 
2011/04/testing-for-granger-causality.html。 











fit2 <- VAR(climateLevels, p = 7) 
> serial.test (fit2, type = "PT.asymptotic") 
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Portmanteau Test (asymptotic) 


data: Residuals of VAR object fit2 
Chi-squared = 35.161, df = 36, p-value = 0.5083 


现在 ,为 了 确定 x 是 引起 y 的 格 兰 杰 原因 ， 需 要 进行 Wald 检 验 。 在 预测 y 的 公式 中 ， 有 且 只 有 x 
的 系数 为 0。 请 记 住 ， 不 要 在 测试 中 包括 表示 差分 的 其 他 系数 。 


R 语 言 的 Wald 检 验 在 aodq 包 中 ,我 们 已 经 加 载 过 。 需 要 指定 整个 模型 的 系数 、 方 差 - 协 方差 矩 
阵 和 因果 关系 变量 的 系数 。 


在 VAR 对 象 中 , 需要 检验 的 温度 系数 是 2~12 的 偶数 , 而 二 氧化 碳 系 数 是 1~ es 
人 数 。 函 数 不 使 用 c(2，4，6，...) 这 种 形式 ， 而 是 使 用 基础 及 包 中 的 sed1() 
数 创 建 一 个 序列 对 象 。 


首先 ， 看 看 二 氧化 碳 排放 量 是 否 是 温度 变化 的 格 兰 杰 原因 : 


> CO2terms <- seq(1, 11, 2) 





























> Tempterms <- seq(2, 12, 2) 
现在 进行 Wald 检 验 ， 代 码 如 下 所 示 : 


> wald.test(b = coef(fit2$varreSsultS$Temp)， 
Sigma = vcov(fit2s$varresult$Temp), 
Terms = c(CO2terms)) 

Wald test: 


Chi-squared test: 
X2 = 11.5, df = 6, P(> X2) = 0.074 


结果 如 何 ? 非常 接近 边际 p 值 0.05。 再 检验 因果 关系 的 另 一 个 方向 ， 代 码 如 下 : 


> wald.test(b = coef (fit2s$varresult$C02), 
Sigma = vcov(fit2$varresult$C0O2), 
Terms = c(Tempterms)) 

Wald test: 





Chi-squared test: 
X2 = 3.9, df = 6, P(> X2) = 0.69 


最 后 一 件 事 是 如 何 使 用 向 量 自 回归 进行 预测 。predict () 函数 已 经 准备 好 ， 对 其 应 用 
autoplot () 函数 ,绘制 阶段 为 25 年 的 预测 ， 看 看 会 是 什么 情况 : 


> autoplot (predict (fit2, n.ahead = 25, ci = 0.95)) 
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前 途 一 片 灰暗 ， 按 照 流行 剧 集 《 权 力 的 游戏 》 中 的 话 来 说 就 是 “ 凉 冬 将 至 ”。 我 其 实 无 
所 谓 , 因为 我 的 长 期 投资 和 储蓄 计划 中 已 经 包括 铅 尖 和 各 种 军用 物资 了 。 我 还 能 怎么 做 呢 ? 骑马 
出 去 上 班 吗 ? 如 果 阿 尔 . 戈 尔 能 这 么 做 ,我 也 可 以 。 在 此 期 间 ， 我 可 能 要 擦 着 防晒 油 上 班 了 。 


闲话 少 说 , 我 希望 本 章 的 讨论 可 以 促使 你 思考 ,如 何 应 用 技术 去 解决 实际 问题 ,甚至 可 以 将 
气候 变化 数据 研究 得 更 深入 一 些 。 揭 示 因 果 关 系 需 要 非常 艰苦 的 努力 , 格 兰 杰 因果 关系 在 这 方面 
是 一 个 非常 好 的 工具 。 














12.4 小 结 


本 章 目的 是 讨论 时 间 因 素 在 机 器 学 习 与 分 析 中 多 么 重要 , 同时 指出 分 析 时 间 序 列 时 经 常 陷 人 
的 误区 , 并 介绍 了 走出 误区 的 技术 和 方法 。 我 们 介绍 了 单 变量 和 双 变 量 时 间 序 列 分 析 ， 并 使 用 这 
两 种 方法 研究 了 全 球 温度 异常 和 人 类 二 氧化 碳 排 放量 之 间 的 关系 。 此 外 还 介绍 了 格 兰 杰 因果 关系 
模型 ， 并 用 来 确定 是 否 可 以 在 统计 意义 上 认为 二 氧化 碳 排放 量 会 引起 地 表 温 度 异 常 。 我 们 发 现 ， 
“二 氧化 碳 排放 量 是 温度 异常 的 格 兰 杰 因果 关系 ”的 p 值 大 于 0.05, 但 小 于 0.1。 这 说 明 在 机 器 学 习 
领域 内 的 因果 性 研究 中 , 格 兰 杰 因 果 关 系 模型 这 个 工具 相当 有 效 。 下 一 章 研究 如 何 将 机 顺 学 习 方 
法 应 用 于 文本 数据 。 

此 外 , 请 记 住 我 们 只 学 习 了 时 间 序 列 分 析 的 皮毛 。 我 希望 你 能 研究 更 多 技术 ， 比 如 突变 点 检 
测 、 时 间 序 列 分 解 、 非 线性 预测 等 。 尽 管 这 些 不 是 机 器 学 习 中 的 常用 技术 ,但 我 相信 它们 可 以 使 
你 的 能 力 得 到 极 大 提高 。 















































文本 挖掘 








“我 觉得 ， 不 知道 答案 的 生活 要 比 得 到 一 个 错误 答案 有 趣 得 多 。” 
一 一 理 查 德 . 费 曼 


现在 这 个 世界 , 文本 数据 已 经 泛滥 成 灾 。 如 果 你 使 用 谷歌 、 必 应 或 雅虎 查询 有 多 少数 据 是 非 
结构 化 的 ， 也 就 是 文本 形式 的 ， 估 计 这 个 比例 会 有 80% ~ 90%。 具 体 的 比例 数据 并 不 重要 ， 重 要 
的 是 大 部 分 数据 都 是 文本 形式 的 。 这 说 明 任何 一 个 想 在 数据 中 淘 到 宝藏 的 人 , 都 必须 具备 处 理 和 
分 析 文 本 数据 的 能 


我 刚 开始 从 事 市 场 分 析 时 , 经 常 一 页 页 翻 看 小 组 访谈 和 采访 记录 , 期 望 能 够 洞察 一 些 独 家 信 
息 (就 是 那 种 “ 啊 哈 !” 时 刻 ), 然后 和 同事 们 神仙 ， 看 看 他 们 是 否 也 能 有 同样 的 发 现 。 然 而 ,项 
目 组 中 总 有 那么 一 个 家 伙 , 在 没 人 注意 的 时 候 , 不 知道 从 哪里 跑 出 来 ,在 昕 了 两 次 访谈 ( 时间 过 
去 三 四 十 分 钟 ) 之 后 , 才 悦 然 大 悟 ， 明白 我 们 究 竞 在 干什么 。 现 在 的 情况 比 那 时 好 多 了 ， 当 前 的 
技术 可 以 使 分 析 师 从 数据 中 快 读 提取 有 意义 的 定量 结果 ,从 而 支持 对 问题 的 定性 理解 , 甚至 可 以 
帮助 那些 中 途 加 入 的 人 。 


在 过 去 的 几 年 中 , 我 使 用 文本 控 掘 技术 做 了 很 多 工作 , 包括 对 医生 与 患者 之 间 的 交流 记录 进 
行 挖 气 ， 理 解 美国 食品 和 药物 管理 局 对 于 处 方药 广告 的 担忧 ,捕获 患者 对 于 罕见 癌症 的 关注 ,等 
等 。 使 用 R 和 本 章 中 的 方法 ， 你 可 以 从 文本 数据 中 提取 非常 有 用 的 信息 。 


13.1 文本 挖掘 框架 与 方法 


有 很 多 种 方法 可 以 进行 文本 挖掘 。 本 节 的 目的 是 提供 文本 挖掘 的 基础 框架 , 这 个 框架 并 不 能 
包括 所 有 可 用 的 算法 ,但 能 够 覆盖 你 遇 到 的 大 多 数 项 目 中 的 最 重要 的 内 容 。 此 外 ,因为 文本 挖掘 
的 建 模 可 能 会 非常 复杂 ， 所 以 我 会 尽量 以 简明 扼要 的 方式 讨论 建 模 方法 。“ 如 何 收集 和 整理 文本 
数据 ”这 个 主题 需要 用 好 几 章 的 篇 幅 进 行 介绍 ， 所 以 我 们 假设 使 用 的 数据 来 自 Twitter 、 客 户 呼叫 
中 心 、 网 络 信息 收集 或 其 他 任何 可 以 包含 文本 文件 的 对 象 。 


首要 任务 是 将 文本 文件 放 入 一 个 结构 化 的 文件 中 , 这 个 文件 称 为 语料库 。 语料库 中 的 文档 可 

















































































































13.1 文本 挖掘 框架 与 方法 251 








以 只 有 一 个 , 也 可 以 有 几 十 、 几 百 甚至 几 千 个 。R 可 以 处 理 的 原始 文本 文件 包括 RSS 源 文件 、PDF 
文件 和 微软 Word 文 档 。 建 立 语料库 后 ， 可 以 通过 文本 转换 进行 数据 准备 。 


下 面 列 出 了 文本 文件 转换 时 最 常用 、 最 有 效 的 操作 : 


口 将 大 写字 母 转换 为 小 写字 母 ; 
口 剔除 数字 ; 

口 剔除 标点 符号 ; 

口 剔除 停 用 词 ; 

口 剔除 多 余 的 空白 字符 ; 

口 词 干 提取 ; 

口 词语 蔡 换 。 


进行 语料库 转换 时 ， 你 不 仅 要 建立 一 个 更 紧凑 的 数据 集 ， 还 要 简化 文档 结构 ， 以 便 更 容易 发 
现 词语 之 间 的 关系 ， 从 而 加 深 对 数据 的 理解 。 但 是 请 记 住 , 在 任何 情况 下 ， 这 些 转 换 操 作 都 不 是 
必需 的 ,应 当 根据 实际 情况 判断 需要 哪些 转换 。 有 时 还 要 反复 进行 判断 ,以 找到 最 有 意义 的 转换 。 


将 词语 转换 成 小 写 可 以 防止 对 词语 的 错误 计数 。 假 设 你 对 hockey 这 个 词 的 计数 为 3， 但 当 它 
是 句子 的 第 一 个 词 时 ， 你 又 会 对 Hockey 这 个 词 计数 为 1。R 不 会 给 出 hockey = 4 的 计数 结果 ， 而 
会 得 出 hockey = 3 以 及 Hockey = 1。 


剔除 标点 符号 也 是 出 于 同样 的 目的 。 但 在 后 面 的 实际 案例 中 会 看 到 , 如 果 你 想 把 文档 分 成 名 
于 ， 标 点 符号 还 是 非常 重要 的 。 


剔除 停 用 词 是 指 , 将 那些 没有 价值 的 常见 词 去掉 , 实际 上 ,它们 不 利于 分 析 是 因为 出 现 的 频 
率 过 高 ， 会 掩盖 真正 重要 的 词语 。 常 见 的 停 用 词 有 are、and、is、the、not 和 to。 噜 除 空白 字符 可 
以 使 语料库 更 加 紧凑 ， 此 类 字符 通常 有 制 表 符 、 段 落 标记 、 双 倍 行距 标记 等 。 


词 干 提取 会 有 一 点 琼 手 ,因为 它 删除 了 词 的 后 缀 ,生成 了 称 为 词根 的 基本 词语 ,这 可 能 会 7 
生 一 些 混淆, 我 个 人 对 于 词 干 提取 不 太 感 冒 , 与 我 一 起 工作 的 分 析 师 也 同意 这 个 观点 ,尽管 如 此 ， 
可 以 使 用 R 包 中 提供 的 tm 函数 进行 词 干 提取 ， 函数 使 用 的 是 SnowballC 包 中 的 波 特 词 干 提取 算法 。 
假如 你 的 语料库 中 有 family 和 families 两 个 词 ，R 会 分 别 为 二 者 计数 。 运 行 词 干 提取 算法 后 ， 这 两 
个 词 都 会 变 为 famili。 这 样 会 防止 错误 计数 ， 但 有 些 时 候 的 结果 解释 看 上 去 会 怪 怪 的 。 比 如 做 展 
示 时 ,， 词 云 中 如 果 出 现 这 种 词 ， 就 显得 不 那么 动人 了 。 某 些 情况 下 应 该 做 两 次 分 析 , 一 次 使 用 提 
取 了 词 干 的 词 ， 男 一 次 使 用 未 提取 词 干 的 词 ， 看 看 哪 种 更 有 意义 。 


词语 替换 这 种 转换 可 做 可 不 做 。 词 语 赫 换 的 目的 是 将 具有 相似 意义 的 词组 合 在 一 起 ， 例 如 
management 和 leadership 。 你 可 以 使 用 词语 替换 来 代替 词 干 提取 。 我 研究 过 进行 词 干 提取 和 不 进 
行 词 干 提取 的 结果 , 个 人 认为 ， 如 果 不 进 行 词 干 提 取 而 是 蔡 换 掉 一 组 词 的 话 ， 可 以 得 到 更 有 意义 
的 结果 。 













































































































































































252 第 13 章 文本 挖 握 




















语料库 转换 完成 后 , 下 一 步 就 是 建立 文档 - 词 给 阵 或 词 -文档 和 矩阵。 这 两 个 矩阵 中 保存 的 都 是 
某 个 词 在 茶 个 文档 中 出 现 的 次 数 ， 前 者 中 , 行 表示 文档 ， 列 表示 词 ; 而 在 后 者 中 , 行 表示 词 ， 列 
表示 文档 。 这 两 种 矩阵 都 可 以 用 于 文本 挖掘。 


使 用 上 面 的 矩阵 即 可 开始 文本 分 析 ， 你 可 以 研究 词 频 ， 也 可 以 生成 可 视 化 结果 ， 比 如 词 云 。 
生成 特定 词语 的 相关 性 列表 可 以 找 出 词语 关联 。 文 档 - 词 矩阵 还 是 用 来 建立 主题 模型 的 一 种 必要 
的 数据 结构 。 


13.2 ”主题 模型 


主题 模型 是 按照 文档 主题 为 文档 分 组 的 一 种 强 有 力 的 方法 ,主题 模型 允许 对 文档 中 的 名 词 出 
现 频率 进行 概率 建 模 。 拟 合 后 的 模型 可 以 用 来 估计 文档 之 间或 者 一 组 特定 关键 词 之 间 的 相似 度 ， 
模型 使 用 额外 一 层 潜在 变量 进行 估计 ， 这 些 潜 在 变量 就 称 为 主题 ( Grun 与 Hornik，2011 )。 从 本 
质 上 讲 , 一 篇 文档 是 根据 其 内 部 词语 的 分 布 来 分 配给 一 个 主题 的 , 这 个 主题 下 的 其 他 文档 也 具有 
几乎 相同 频率 的 词语 。 


我 们 重点 讨论 的 算法 是 隐 含 犹 利克 雷 分 布 , 它 使 用 的 是 吉 布 斯 抽样 方法 , 这 可 能 是 最 常用 的 
一 种 抽样 方法 。 建 立 主题 模型 时 ， 主 题 的 数量 必须 在 运行 算法 之 前 就 确定 下 来 (Kk 维 )。 如 果 没 有 
先 验 理由 可 以 确定 主题 数量 , 那么 可 以 建立 若干 模型 , 然后 使 用 专业 知识 和 判断 力 做 出 最 后 的 选 
择 。 带 有 吉 布 斯 抽样 的 LDA 用 数学 解释 起 来 非常 复杂 , 但 既然 我 们 的 目的 是 介绍 主题 模型 ， 所 以 
你 至 少 应 该 可 以 通俗 地 描述 算法 如 何 学 会 将 一 篇 文档 分 配给 一 个 主题 。 如 果 你 想 弄 清楚 数学 解释 ， 
那么 就 抽出 几 个 小 时 去 尝试 一 下 吧 。https://www.cs.princeton.edu/~blei/papers/Blei2012.pdf 提 供 了 
很 详细 的 背景 资料 。 


LDA 是 一 个 生成 式 过 程 ， 它 按照 下 面 的 步骤 进行 迭代 ， 直 到 达成 一 个 平稳 状态 。 


(1) 如 果 有 1 ~j 个 文档 ，1 ~ Kk 个 主题 ， 那 么 对 每 个 文档 (] ) 使 用 一 个 多 项 式 分 布 〈 狄 利克 雷 
分 布 ) 将 其 随机 分 配给 各 个 主题 (k)。 例如， 文档 A 分 配给 主题 1 的 概率 是 25%， 分 配给 主题 2 的 
概率 是 25%， 分 配给 主题 3 的 概率 是 50%。 

(2) 如 果 有 1~i 个 词 ， 那 么 每 个 词 都 以 某 个 概率 属于 某 个 主题 (上 )。 例 如 ， 词 mean 以 0.25 的 概 
率 属 于 主题 statistics。 

(3) 对 于 文档 (7) 和 主题 (大 ) 中 的 每 一 个 词 (i)， 计 算 该 文档 中 的 词 分 配给 该 主题 的 比例 ， 
记 为 主题 (k) 在 文档 (j ) 中 的 概率 P(Kj)。 再 从 所 有 包含 该 词 的 文档 中 计算 词 (i ) 在 主题 () 
中 的 比例 ， 记 为 词 (i) 属于 主题 (k) 的 概率 P(ilA)。 

(4) 重新 抽样 ， 即 基于 1 包含 w 的 概率 为 w 分 配 一 个 新 的 :， 此 处 的 基准 概率 为 P(4)) x PC 月。 

(5) 重复 这 一 过 程 ， 经 过 多 次 迭代 ， 算 法 会 最 终 收 人 钱 。 于 是 ， 基 于 每 个 词 被 分 配给 文档 中 主 
题 的 比例 ， 这 篇 文档 就 被 分 配给 一 个 主题 。 


本 章 中 的 LDA 假 设 词语 和 文档 的 顺序 并 不 重要 。 现在 已 经 有 研究 放松 了 这 种 假设 , 以 建立 语 
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本 节 论 的 内 容 是 基于 句子 对 文本 进行 语义 分 析 , 以 及 从 语言 学 的 角度 对 词语 进行 标记 ， 比 如 
和 名词、 动词、 代词 、 形 容 词 、 副 词 、 介 词 、 单 数 、 复 数 等 。 一 般 来 讲 ， 只 研究 词 频 和 文本 隐 含 主 
题 就 足够 了 。 但 是 ， 有 些 时 候 你 会 发 现 需要 对 文本 风格 理解 得 更 深入 一 些 ， 以 便 对 演讲 者 和 写作 
者 进行 比较 。 

有 很 多 方法 可 以 完成 这 一 任务 ,但 我 们 只 集中 讨论 下 面 5 种 : 


口 极 性 分 析 ( 情感 分 析 ) 
口 自动 易 读 性 指数 ( 复杂 度 ) 
口 正式 度 
口 多 样 性 
口 分 散 度 

极 性 分 析 通 常 称 为 情感 分 析 , 它 可 以 告诉 你 文本 的 情感 有 多 么 积极 或 者 多 么 消极 。-R 使 用 qdap 
包 进 行 极 性 分 析 ， 它 为 每 个 句子 分 配 一 个 评分 。 你 可 以 对 不 同 作 者 、 文 本 或 主题 进行 分 组 ， 以 分 
析 极 性 均值 或 标准 差 。 有 很 多 极 性 词典 可 供 使 用 ，qdap 包 中 默认 使 用 的 词典 是 由 Hu 与 Liu 在 2004 
年 建立 的 。 你 可 以 根据 自己 的 需要 替换 或 改变 这 个 词典 。 


算法 首先 对 词语 进行 标记 , 每 个 词 都 根据 词典 标 为 “积极 ”“ 消 极 ”或 “中 性 ”的 情感 标记 。 
标记 后 的 词 与 它 前 4 个 词 和 后 2 个 词 一 起 ， 被 聚集 成 词 徐 。 词 篮 用 效 价 转换 器 〈valence shifter， 中 
性 器 neutral 、 否 定 器 negator、 放 大 器 amplifier、 负 放大 器 de-amplifier ) 进行 标记 。 根 据 词 和 词 簇 
的 数量 与 位 置 ， 为 其 赋予 一 系列 权重 ， 然 后 将 权重 相 加 ， 再 除 以 句子 中 词 的 数量 的 平方 根 。 


自动 易 读 性 指数 是 衡量 文本 复杂 度 和 读者 理解 能 力 的 一 个 指标 。 可 以 用 一 个 专门 的 公式 计算 
数 : 4.71( 字 符 数 / 词 数 ) + 0.5( 词 数 /句子 数 ) - 21.43。 

这 个 指数 会 生成 一 个 数值 , 通过 这 个 数值 可 以 估计 出 能 完全 理解 文本 的 学 生年 级 。 如 果 这 个 
数值 是 9， 那 么 一 个 年 龄 为 13~15 岁 的 学 生 应 该 能 够 理解 文本 意义 。 

正式 度 可 以 表示 文本 和 读者 之 间或 者 演讲 者 与 听众 之 间 的 相关 程度 。 我 认为 , 它 是 表示 文本 
作者 与 读者 之 间 适 合 程度 的 一 种 方式 , 或 者 是 对 作者 与 读者 交流 环境 的 一 种 设 定 。 如 果 你 想 体验 
正式 的 文本 ， 那 么 去 参加 医学 会 议 或 阅读 法 律 文件 吧 。 非 正式 文本 天 然 地 要 受到 语 境 的 影响 。 

正式 度 可 以 用 F 值 度量 ， 这 个 度量 值 的 计算 方法 如 下 所 示 。 
口 正式 词 (f): 名 词 、 形 容 词 、 介 词 、 条 款 
口 上 下 文 关系 词 (c ): 人 代词、 动词、 副词 、 感 叹 词 
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口 N= (f+c+ 连 接 词 ) 的 总 数 
口 正式 度 指数 = 50(( 的 总 数 一 c 的 总 数 /N) + 1) 


这 些 都 无 关 紧 要 ,但 当 我 在 伊拉克 时 ， 需 要 为 一 位 将 军 ( 名字 还 需 保 密 ) 总 结 并 撰写 形势 分 
析 报 告 。 这 位 将 军 坚 决 禁止 在 报告 中 使 用 副词 ， 否 则 他 就 会 勃然 大 把 。 他 的 理由 是 ,“ 非 常 ” 或 
“大 多 数 ” 这 种 词 是 不 能 量化 的 ， 因 为 不 同 的 人 对 此 有 不 同 理解 。5 年 过 去 了 ,我 却 还 在 使 用 那些 
不 必要 的 副词 来 粉饰 自己 的 商业 邮件 和 PPT。 这 就 是 正式 度 的 体现 ! 


在 文本 挖 扬中 ,多 样 性 表示 文本 中 使 用 的 不 同 词 数 和 全 部 词 数 的 比值 。 它 还 可 以 表示 文本 作 
者 的 词汇 范围 或 词汇 的 丰富 程度 。qdap 包 提供 了 5 种 〈 你 没 看 错 ， 是 5 种 ) 不 同 的 多 样 性 度量 : 
Simpson 、Shannon 、Collision 、Bergen Parker、 和 Brillouin。 我 不 会 详细 介绍 这 5 种 度量 方式 ， 只 
是 想 告 诉 你 ， 这 种 算法 不 只 用 于 通信 和 信息 科学 检索 ， 还 可 以 用 于 分 析 自 然 界 中 的 生物 多 样 性 。 


最 后 看 看 分 散 度 , 或 称 词 江 分散 度 。 它 是 一 种 可 以 帮助 你 理解 词 在 整 篇 文本 中 的 分 布 的 有 用 
工具 , 也 是 探索 文本 并 识别 模式 的 极 好 方法 。 进 行 分 散 度 分 析 时 ， 首 先 找 出 特定 的 词 或 词组 ， 然 
后 在 统计 图 中 展现 该 词 或 词组 出 现 于 文本 的 时 间 。 在 后 面 会 看 到 ,qdap 包 提供 了 一 个 内 建 的 制图 
函数 ， 以 帮助 分 析 文 本 分 散 度 。 

我 们 介绍 了 一 个 文本 挖掘 的 框架 ,可 以 用 来 做 文本 准备 、 词 汇 计数 以 及 主题 模型 建 模 ， 之 后 
对 其 他 一 些 词汇 指标 进行 了 深入 探讨 。 现 在 ， 将 上 述 理论 应 用 于 现实 中 的 文本 挖掘 问题 。 
13.3 ”业务 理解 

在 这 个 案例 中 , 我 们 研究 奥巴马 前 总 统 的 国会 演讲 。 我 没有 什么 预定 目标 ,仅仅 好 奇 能 否 从 
中 发 现 一 些 特 别 的 东西 ， 还 想 知 道 随 着 时 间 的 推移 ,他 传达 的 信息 有 什么 变化 。 这 个 案例 有 可 能 


成 为 分 析 政 客 演讲 的 一 个 蓝本 ,可 以 用 于 准备 辩论 中 的 反对 意见 ， 也 可 以 生成 自己 的 演讲 稿 。 如 
有 果 不 可 行 ， 那 也 没什么 大 不 了 的 。 




































































































































































我 们 有 两 个 主要 的 分 析 目标 ， 首 先 使 用 7 篇 国会 演讲 建立 一 个 主题 模型 ， 然 后 对 比 2010 年 的 
第 一 篇 演讲 和 2016 年 1 月 的 最 后 一 篇 演讲 。 使 用 基于 句子 的 文本 度量 方式 ， 比 如 情感 和 分 散 度 。 
数据 理解 与 数据 准备 




















我 们 要 使 用 的 基础 软件 包 是 tm， 这 是 专门 的 文本 挖掘 软件 包 。 还 需要 SnowballC 包 进行 词 干 
提取 , 使 用 RColorBrewer 包 为 词 云 上 色 ， 当 然 还 有 wordcloud 包 。 在 加 载 之 前 ， 请 确认 你 已 经 安装 
了 它们 : 








> library (tm) 
> library (wordcloud) 


> library (RColorBrewer) 
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可 以 从 https:/github.comy/datameister66/data 下 载 数据 文件 。 请 一 定 将 这 些 文本 文件 放 在 一 个 单 
独 的 目录 中 ， 因 为 我 们 会 使 用 这 个 目录 作为 语料库 进行 分 析 。 














需要 下 载 7 个 .txt 文件 ,比如 sou2012.txt, 将 这 些 文件 放 在 你 的 R 语 言 工作 目录 中 。 可 以 用 以 下 
命令 找 出 你 当前 的 工作 目录 ， 或 者 设置 工作 目录 : 


> getwd() 


> setwd(".../data") 


现在 可 以 建立 语料库 了 。 首先 建立 一 个 包含 演讲 稿 文 件 路 径 的 对 象 , 然后 看 看 目录 中 有 多 少 
个 文件 ， 以 及 每 个 文件 的 名 字 : 








> name <- file.path(".../text") 


> length(dir (name) ) 
[7 


> dir(name) 
[1] "sou2010.txt" "sou2011.txt" "sou2012.txt" "sou2013.txt" 
[5] "sou2014.txt" "sou2015.txt" "sou2016.txt" 


将 语料库 命名 为 docs， 并 使 用 corpus () 函数 建立 语料库 。 孙 数 包装 了 Dirsource () 函数 ， 
它 也 是 tm 包 的 一 部 分 : 


> docs <- Corpus (DirSource (name)) 


> docs 
<<VCorpus>> 
Metadata: corpus specific: 0, document level (indexed): 0 
Content: documents: 7 


作者 名 和 时 间 惟 这 样 的 信息 ,也 能 生成 document level 和 corpus。 这 个 案例 中 不 需 
要 这 些 信息 。 


请 注意 , 语料库 中 没有 corpus 和 document level 元 数据 。tm 包 中 有 些 函 数 可 以 生成 





现在 ， 使 用 tm 包 中 的 tm_map ( ) 函数 进行 文本 转换 。 前 面 讨论 过 ， 需 要 执行 的 转换 操作 有 
字母 转换 为 小 写 、 别 除数 字 、 别 除 标点 符号 、 别 除 停 用 词 、 列 除 空 日 字符 ， 然 后 进行 词 干 提取 。 


> docs <- tm map(docs, tolower) 

> docs <- tm map(docs, removeNumbers) 

> docs <- tm map(docs, removePunctuation) 

> docs <- tm map(docs, removeWords, stopwords ("english")) 


> docs <- tm map(docs, stripWhitespace) 
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此 时 ,应 该 删除 那些 不 必要 的 词 。 例 如 , 在 演讲 过 程 中 ， 当 国会 议员 对 于 某 个 部 分 鼓掌 欢呼 
的 时 候 ， 文 本 中 就 会 出 现 (Applause) ， 这 是 必须 删除 的 : 





> docs <- tm map(docs, removeWords, c("applause", "can", "cant", 
nwill" 本 
rthat", "weve", "dont", "wont", "youll" / "youre" ) ) 
结束 文本 转换 和 元 余 词 删除 之 后 ， 请 确认 文档 还 是 纯 文 本 形式 ， 然 后 将 其 放 人 文档 - 词 矩 阵 
并 查看 维度 : 


> docs = tm map(docs, PlainTextDocument) 

















> dtm = DocumentTermMatrix(docs) 


> dim(dtm) 
[1] 7 4738 


这 7 篇 演讲 稿 包 含 4738 个 词 。 你 可 以 通过 removeSparseTerms () 函数 删除 稀 朴 项 ， 但 这 一 
步 不 是 必需 的 。 你 需要 指定 一 个 0 和 1 之 间 的 数 ， 这 个 数值 越 大 ， 表 示 和 抢 阵 的 稀 琉 度 越 高 。 稀 玻 度 
表示 一 个 名 词 在 文档 中 的 相对 频率 ， 所 以 如 果 你 的 稀 玻 度 靖 值 是 0.75， 那 么 就 只 删除 那些 稀 玻 度 
大 于 0.75 的 名 词 。 在 这 个 例子 中 ，(1 - 0.75) * 7 = 1.75， 因 此 ， 对 于 任何 一 个 名 词 ， 如 果 包 含 它 
的 文档 少 于 2 个 ， 它 就 会 被 删除 : 
































> dtm <- removeSparseTerms (dtm, 0.75) 


> dim(dtm) 
[1] 7 2254 


因为 没有 文档 元 数据 ， 所 以 应 该 命名 矩阵 中 的 行 ， 这 样 才能 知道 每 行 代表 的 文档 : 


> rownames (dtm) <- c("2010", "2011", "2012", "2013", "2014", 
ok "2016") 


通过 inspect () 函数 检查 文档 - 词 矩 阵 。 此 处 看 看 所 有 7 行 中 的 前 5 列 数据 : 


> inspect (dtm[1:7, 1:5]) 








Terms 
Docs abandon ability able abroad absolutely 
2010 0 1 1 2 2 
2011 0 4 3 0 
2012 0 0 3 1 1 
2013 0 3 3 2 1 
2014 0 0 1 4 0 
2015 1 0 1 1 0 
2016 0 0 1 0 0 


看 上 去 ,我 们 已 经 做 好 分 析 数据 的 准备 了 ， 下 面 从 词 频 分 析 开 始 。 我 要 指出 的 是 ， 这 个 输出 
可 以 说 明 为 什么 我 不 喜欢 进行 大 规模 的 词 干 提取 。 你 可 能 正在 考虑 是 否 应 该 将 ability 和 able 合 在 
一 起 。 如 果 你 对 文档 进行 了 词 二 提取， 那么 这 两 个 词 都 会 变 成 abl。 这 对 分 析 有 什么 帮助 吗 ? 我 
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认为 反而 会 丢失 语 境 ， 至 少 在 初始 分 析 中 的 确 如 此 。 再 说 一 次 , 我 建议 进行 词 干 提取 时 要 小 心间 
慎 ， 三 思 而 行 。 


13.4 ”模型 构建 与 模型 评价 


建 模 过 程 将 分 为 两 个 独立 部 分 。 在 第 一 部 分 中 ,我 们 重点 进行 词 频 分 析 和 相关 性 分 析 ， 然后 
建立 一 个 主题 模型 。 在 第 二 部 分 中 , 我 们 使 用 功能 强大 的 qdap 包 研究 各 种 定量 分 析 技 术 ， 以 比较 
两 篇 演讲 稿 。 


13.4.1 词 频 分 析 与 主题 模型 


建立 文档 - 词 和 矩阵 之 后 ， 开 始 词 频 分 析 。 首 先 建立 一 个 对 象 ， 计 算 每 列 总 和 ， 然 后 按 降序 重 
新 排列 。 要 计算 每 列 总 和 ， 必 须 在 代码 中 使 用 as .matrix() 国 数 。 默 认 的 排序 方式 是 升序 ， 所 
以 要 在 freq 前 面 加 一 个 负 号 ， 将 排序 方式 改变 为 降序 : 












































> freq <- colSums(as.matrix(dtm)) 
> ord <- order(-freq) 
通过 下 列 代码 检查 对 象 的 头 部 和 尾部 ; 

> freq[head (ord)] 


new america people jobs now years 
193 174 168 163 157 148 





> fregq[tail(ord)] 
wright written yearold youngest youngstown zero 
2 2 2 2 2 2 


出 现 最 频繁 的 词 是 new， 你 可 能 已 经 想到 了 ， 总 统 先生 也 非常 频繁 地 提起 america。 还 应 该 注 
意 到 ， 从 job 这 个 词 的 频率 可 以 看 出 就 业 问题 多 么 重要 。 有 趣 的 是 ， 我 发 现 他 提 到 了 Youngstown 
( 扬 斯 敦 ， 美国 俄 玄 俄 州 东 北部 城市 )， 而 且 是 2 次 。 

如 果 想 看 看 词 频 的 频率 ， 可 以 生成 一 张 表 ， 如 下 所 示 : 


> head(table(fredg) ) 
freqg 







































































2 3 4 5 6 7 
596 354 230 141 137 89 


> tail(table (freq)) 
Freq 
148 157 163 168 174 193 
L 二 业 汪 业 


这 张 表 给 出 了 具有 革 种 词 频 的 词 的 数量 ， 可 以 看 出 ， 有 354 个 词 出 现 了 3 次 ， 只 有 1 个 词 出 现 
了 193 次 ， 就 是 new。 














258 第 13 章 文本 控 握 





使 用 fingdFreqTerms () 函数 ， 找 出 那些 至 少 出 现 125 次 的 词 : 


> findFreqTerms (dtm, 125) 


[1] "america" "american" "americans" "jobs" "make" "new" 


[7] "now" "people" nwork" 





"year" 


"years" 


可 以 通过 fingAssocs() 函数 计算 相关 性 , 从 而 找 出 词 与 词 之 间 的 关联 。 以 job 为 例 , 使 用 0.85 

















作为 相关 性 的 下 限 : 


> findAssocs(dtm, "jobs", corlimit = 0.85) 
$jobs 


Colleges serve market shouldnt defense put tax came 


0.97 0.91 0.89 0.88 


0.87 0.87 0.87 0.86 


至 于 可 视 化 描述 ,可 以 生成 词 云 和 柱 形 图 。 我 们 生成 两 种 词 云 , 演示 不 同 生 成 方法 。 一 种 通 











过 最 小 频率 法 ， 另 一 种 需要 指定 词 云 包 含 的 词 的 最 大 数目 。 第 一 种 使 用 最 小 频率 的 方法 ,还 可 以 
加 入 代码 以 指定 颜色 。 词 的 字号 由 频率 决定 ,参数 scale 确 定 了 词 的 最 大 字号 和 最 小 字号 。 下 面 的 


代码 中 ， 最 小 频率 是 70: 














> wordcloud (names (freq), freq, min.freq = 70, scale = c(3, .5), 
Colors = brewer.pal(6, "Dark2")) 


上 述 命令 输出 如 下 。 





NOoW 
economy get country 
just amMmerica 


worldcongress EW like 
businessestax lasthelp 


.energy americans vw 
jobs need ‘B's know® 
also 七 CeVvery work 


year 2 omake want 


time? people 


right 
american 
years 











如 果 你 和 我 一 样 不 喜欢 这 些 花 里 胡 哨 的 东西 ， 可 以 在 词 云 中 只 显示 最 频繁 的 25 个 词 : 
> wordcloud(names (freq), freq, max.words = 25) 


上 述 命令 输出 如 下 页 图 。 
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peopleamerican 
EVETY country 
year vw zm 
like oOeonow 
JustO ots right 
再 二 economy 
one 所; get 
world Gtime 
americans years 
mew work 


























要 生成 柱状 图 ,代码 会 复杂 一 些 , 不 论 使 用 的 是 R 基 础 包 、ggplot2 还 是 lattice。 以 下 代码 说 明 
了 如 何 使 用 R 基 础 包 为 频率 最 高 的 10 个 词 生 成 柱状 图 : 


> freq <- sort(colSums(as.matrix(dtm)), decreasing = TRUE) 


> wf <- data.frame(word = names(freq), freqg = freqg) 


> wf <- wf[1:10, | 










































































> barplot (wf$freq, names = wf$word, main = "Word Frequency", 
xlab = "Words", ylab = "Counts", ylim = c(0, 250)) 
、 人 大 全 
上 述 命令 输出 如 下 。 
Word Frequency 
o 
员 - 
已 
呈 
8 em 
ne 
四 
已 
Oo oo 
8 
ee 可 
| 
new america people jobs now years american work make americans 
Words 

















下 面 使 用 topicemodels 包 建立 主题 模型 ， 这 个 包 提供 了 LDA () 函数 。 问 题 在 于 要 建立 多 少 个 主 
题 ， 看 上 去 3 个 主题 (k=3 ) 是 比较 符合 逻辑 的 。 当 然 ， 我 建议 你 也 试 试 其 他 数量 : Ee 








> library (topicmodels) 


> set.seed(123) 
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> lda3 <- LDA(dtm, k = 3, method = 


> topics(1da3) 
2010 2011 2012 2013 2014 2015 2016 


2 1 


1 1 


3 2 


"Gibbs") 


A 

















可 以 看 到 ， 随 着 时 间 的 变化 ,主题 的 变化 也 非常 有 意思 
主题 分 组 ， 看 来 奥巴马 以 同样 的 方式 开始 和 结束 了 自己 的 任期 。 


使 用 term() 函数 ， 生 成 一 个 对 每 个 主题 中 的 词 按 词 频 排序 的 列表 。 函 数 可 以 指定 列表 中 词 
的 数目 ， 下 面 看 看 每 个 主题 中 的 前 25 个 词 : 


> terms(1da3， 


[1,] 
[2,] 
[3,] 
[4,] 
[5,] 
[6,] 
[7,] 
[8,] 
[9,] 
[10,] 
[11,] 
[12,] 
[13,] 
[14,] 
[15,] 
[16,] 
[17,] 
[18,] 
[19,] 
[20,] 
[21,] 
[22,] 
[23,] 
[24,] 
[25,] 








25) 
Topic 1 
"jobs" 
"now" 

"get" 
"tonight" 
"last" 
"energy" 
"tax" 
"right" 
"also" 
"government" 
"home" 
"well" 
"american" 
"two" 
"congress" 
oountry" 
"reform" 
"must" 
"deficit" 
"support" 
"business" 
"education" 
"companies" 
"million" 
"nation" 


Topic 2 
"people" 
nonen 
"work" 

mn j ust mn 
nyear™" 
"know" 
"economy" 
"americans" 
"businesses" 
"even" 
"give mn 
"many" 
"security" 
"better" 
"come" 
"still" 
"workers" 
"change" 

oy take oy 
"health" 
"Care" 
"families" 
"made om 
"future" 
"small" 


心 \/D NO 


Topic 3 
"america" 
"new" 
"every" 
"years" 
"like" 
"make" 
"time" 
"need" 
"american" 
"world" 
"help" 
"lets" 
"want" 
"states" 
"first" 
"country" 
"together" 
"keep" 
"back" 
"americans" 
mwayn 
"hard" 
"today" 
"working" 
"good" 


bE 


篇 和 最 后 





篇 演讲 具有 同样 的 


主题 2 包括 第 一 篇 和 最 后 一 篇 演讲 。 和 另外 两 个 主题 不 同 ， 这 个 主题 真 没什么 好 说 的 。 我 们 


很 想 





道 ， 下 一 项 分 析 能 否 从 这 两 篇 演讲 中 找 出 点 东西 来 。 





主题 1 包括 第 一 篇 演讲 之 后 的 3 篇 演讲 ,其 中 能 传达 信息 的 词语 是 jobs ,energy \reform 和 deficit， 


更 不 用 说 关于 education 的 讨 


主题 3 包括 


口 








保健 。 


下 一 节 会 深入 分 析 某 一 篇 演讲 的 内 容 ， 并 比较 第 








另外 





F 论 ， 以 及 前 面 看 到 的 具有 关联 的 jobs 和 colleges 了 。 











摧 篇 演讲 。 重 点 似乎 确实 转移 到 了 经 济 和 商业 上 ， 因 为 提 到 了 security 和 医疗 
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13.4.2 ”其 他 定量 分 析 


本 节 将 重点 放 在 功能 强大 的 qdap 包 上 。 这 个 软件 包 可 以 使 用 多 种 数值 指标 进行 文档 比较 。 我 
们 将 比较 2010 年 和 2016 年 的 演讲 。 首 先 需 要 将 文本 文件 转换 为 数据 框 ， 再 进行 句法 分 割 。 然 后 将 
分 割 出 来 的 句子 组 合成 一 个 数据 框 , 并 建立 一 个 变量 以 标记 演讲 年 份 , 用 这 个 变量 作为 文本 分 析 
中 的 分 组 变量 。 处 理 文本 数据 时 ， 特 别 是 使 用 R 语 言 时 会 比较 麻烦 。 对 于 这 个 例子 ， 以 下 代码 在 
加 载 数 据 并 进行 分 析 方 面 似乎 效果 最 好 。 首 先 加 载 qdap 程 序 包 ,然后 使 用 基础 R 包 中 的 
readLines () 函数 ， 从 文本 文件 读 取 数据 ， 并 删除 不 必要 的 空白 字符 。 我 还 建议 将 文本 编码 设 
定 为 ASCII， 和 否则 可 能 出 现 乱 码 扰乱 分 析 。 可 以 通过 iconv () 也 数 完成 : 





























> library (qdap) 


> Speech16 <- paste(readLines ("sou2016.txt"), collapse=" ") 
Warning message: 
In readLines ("sou2016.txt") : incomplete final line found on 


"Sou2016 .txt"' 
> Speech16 <- iconv(speech16, "latini", "ASCII", "") 
警告 信息 不 是 什么 问题 ， 因 为 它 只 是 告诉 我 们 ， 文 本 中 最 后 一 行 的 长 度 和 .txt 文 件 中 其 他 行 
的 长 度 不 一 样 。 现 在 ， 可 以 使 用 qdap 包 中 的 qprep () 函数 了 。 


这 个 函数 是 其 他 替换 函数 的 打包 函数 , 使 用 它 可 以 加 快 预 处 理 过 程 , 但 如 果 需 要 更 多 详细 分 
析 ， 那 么 使 用 这 个 函数 要 小 心 一 些 。 该 函数 打包 的 函数 如 下 所 示 。 























口 bracketX() : 去 掉 插 号 

口 replace_abbreviation(): 替换 缩 略语 

口 replace_number (): 将 数字 替换 为 单词 ， 例 如 ， 可 以 将 100 替 换 为 one hundred 
口 replace_symbol () : 将 符号 替换 为 单词 ， 例 如 ， 可 以 将 @ 和 替换 为 at 








> Prep16 <- qdqprep(speech16) 

我 们 要 做 的 一 些 其 他 预 处 理工 作 包 括 替 换 缩写 ( cant 变 为 cannot ); 殊 除 停 用 词 ， 在 这 个 例子 
中 ， 务 除 前 100 个 常用 的 停 用 词 ; 别 除 不 需要 的 字符 ， 除 了 句号 和 问号 。 很 快 你 就 能 知道 这 些 操 
作 的 作用 了 : 


> prep16 <- replace contraction(prep16) 








> Prep16 <- rm stopwords (prepl16, Topl00Words, separate = F) 


> prep16 <- strip(prep16, char.keep = c("?", ".")) 

下 面 就 是 这 个 分 析 中 最 重要 的 部 分 ,将 文档 分 割 成 句子 ,并 加 上 要 作为 分 组 变量 的 演讲 年 份 。 
这 个 过 程 还 会 创建 tot 变 量 , tot 的 意思 是 谈话 的 顺序 ( Turn of Talk ), 作为 表示 句子 顺序 的 指标 。 
这 个 指标 在 你 分 析 对 话 时 特别 有 用 ， 比 如 辩论 和 问答 场景 : 
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> Sent16 <- data.frame(speech = prep16) 

> Sent16 <- sentSplit(sent16, "speech") 

> sentl6s$year <- "2016" 

对 2010 年 的 演讲 重复 以 上 步 又: 

> Speech10 <- paste(readLines ("Ssou2010 .txt")，col1lapse=" ") 
> Speech10 <- iconv(speech10, "latini", "ASCII", "") 

> speech10 <- gsub("(Applause.)", "", speech10) 

> prep10 <- qprep (speech10) 

> prep10 <- replace contraction(prep10) 

> prepl10 <- rm stopwords (prep10, Topl00Words, separate = F) 
> Prep10 <- strip(prepl10, char.keep = c("?", ".")) 


> sent10 <- data.frame(speech = prep10) 
> sent10 <- sentSplit(sent10, "speech") 


> sentl0s$year <- "2010" 
将 这 两 个 独立 年 份 的 数据 合成 一 个 数据 框 : 
> sentences <- data.frame(rbind(sent10, sent16)) 


qdap 包 的 一 大 优点 就 是 ， 可 以 非常 方便 地 完成 文本 探索 工作 。 和 以 前 做 的 一 样 , 看 看 名 词 的 
频率 图 : 


> plot (freq terms(sentences$speech)) 


上 述 命令 输出 如 下 。 


a 


























our 
us 

year 
americans 
work 


america 
why 


years 
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可 以 建立 一 个 词 频 矩阵 ， 表 示 每 篇 演讲 中 每 个 单词 的 数量 : 
> wordMat <- wfm(sentences$speech, sentencess$year) 


> head(wordMat [order (wordMat[, 1], wordMat[, 2],decreasing = 


TRUE),]) 

2010 2016 
our 120 85 
us 33 33 
YeaL 29 17 
americans 28 15 
why 27 10 
jobs 23 8 


这 个 矩阵 还 可 以 转换 为 文档 - 词 矩 阵 ， 如 果 你 有 这 个 需求 的 话 , 可 以 使 用 函数 as .dtm()。 下 
一 步 使 用 qdap 中 的 功能 ， 为 每 年 建立 一 个 词 云 : 


> trans cloud(sentences$speech, sentencess$year, min.freq = 10) 


上 述 命令 会 生成 以 下 两 幅 图 。 
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还 可 以 对 文档 中 的 词 进行 综合 统计 。 下 图 由 软件 包 中 的 综合 统计 绘制 而 成 。 这 个 图 因为 只 有 
两 篇 文档 ,所 以 视觉 效果 打 了 折扣 。 尽 管 如 此 , 它 依然 能 揭示 一 些 信息 。 可 以 通过 ?worgd_stats 





























命令 看 到 对 这 个 统计 的 完整 解释 : 


> ws <- word stats(sentences$speech, sentencess$year, rm.incomplete = T) 





> plot(ws, label = T, lab.digits = 2) 


上 述 命令 输出 如 下 。 
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请 注意 ，2016 年 的 演讲 要 比 2010 年 的 短 很 多 ， 少 100 多 个 句子 和 差不多 1000 个 单词 。 还 有 ， 

















2016 年 ( 10 个 问 句 ) 相对 于 2010 年 (4 个 问 句 )， 更 多 地 使 用 了 问 句 这 种 修辞 手法 。 








如 果 要 比较 极 性 〈 情感 评分 )， 可 以 使 用 polarity () 函数 ， 指 定 文 本 和 分 组 变量 即 可 : 











> pol = polarity(sentences$speech, sentencess$year) 


> pol 
year total.sentences total.words ave.polarity sd.polarity 
stan.mean.polarity 


1 2010 435 3900 0.052 0.432 
0.121 

2 2016 299 2982 0.105 0.395 
0.267 








stan.mean.polarity 表 示 标 准 化 后 的 极 性 均值 ， 就 是 用 极 性 均值 除 以 标准 差 。 可 以 看 到 





2016 年 的 标准 化 极 性 均值 (0.267 ) 要 比 2010 年 (0.121 ) 稍 高 一 些 。 这 也 符合 我 们 的 预 
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先生 想 以 更 积极 的 态度 结束 任期 。 你 也 可 以 通过 统计 图 表示 数据 。 统 计 图 中 有 两 幅 图 , 第 一 幅 表 





示 随 时 间 变 化 的 句子 极 性 ， 第 二 幅 表示 极 性 的 分 布 : 
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> plot (pol) 

















EE 
述 命 命令 输出 如 下 。 
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这 张 统计 图 有 点 难 履 ， 我 尽力 解释 一 下 。2010 年 的 演讲 以 非常 悲观 的 情感 开始 ， 而 且 整 体 上 
比 2016 年 严 观 。 通 过 pol 对 和 象 中 的 数据 框 ， 可 以 找 出 最 悲观 的 句子 。 先 找 出 句子 的 标号 ， 然 后 引 
用 它 : 








> pol.df <- pols$all 


> which.min(pol.df$polarity) 
[1 12 


> pol.dfs$stext .var[12] 
[1] "One year ago, I took office amid two wars, an economy rocked 


by a severe recession, a financial system on the verge of 
collapse, and a government deeply in debt. 


这 就 是 翡 观 情感 ! 具有 讽刺 意味 的 是 , 今天 的 政府 更 加 负债 累累 。 下 面 看 看 易 读 性 指数 : 








> ari <- automated readability index(sentences$speech, 
sentencess$year) 


> arisReadability 
year word.count sentence.count character.count 


1 2010 3900 435 23859 

2 2016 2982 299 17957 
Automated Readability Index 

1 11.86709 


2 11.91929 





266 第 13 章 “文本 挖 握 








不 出 意外 ， 两 篇 演讲 的 指数 基本 相同 。 下 面 看 看 正式 度 的 分 析 。 用 R 进 行 正 式 度 分 析 需 要 几 























分 钟 的 时 间 : 
> form <- formality(sentences$speech, sentencess$year) 
> form 
year word.count formality 

1 2016 2983 65.61 

2 2010 3900 63.88 

看 上 去 非常 接近 。 可 以 检查 演讲 中 各 种 词 的 比例 并 绘制 统计 图 , 但 对 分 析 没 什么 帮助 。 这 个 
例子 中 的 词 的 比例 如 下 : 


> form$form.prop.by 
Year word.count noun adj prep articles pronoun 
1 2010 3900 44.18 15.95 3.67 0 4.51 
2 2016 2982 43.46 17.37 4.49 0 4.96 
verb adverb interj other 
1 23.49 7.77 0.05 0.38 
2 21.73 7.41 0.00 0.57 


现在 计算 多 样 性 指标 。 两 年 的 结果 还 是 几乎 相同 。 可 以 做 一 张 统 计 图 (plot (div) ), 但 是 





因为 太 接近 了 ， 所 以 还 是 没有 什么 意义 。 值 得 一 提 的 是 ， 奥巴马 2010 年 国会 演 1 











的 作者 是 乔 … 费 

















夫 洛 ，2016 年 的 作者 则 是 科 迪 “' 基 南 : 


> div <- diversity(sentences$speech, sentencess$year) 








> div 

YeaL wc simpson shannon collision berger parker brillouin 
1 2010 3900 0.998 6.825 5.970 0.031 6.326 
2 2015 2982 0.998 6.824 6.008 0.029 6.248 


分 散 度 图 是 我 最 喜欢 的 统计 图 之 一 ， 它 展示 了 词 在 整 篇 文本 中 的 分 散 程度 。 我 们 看 一 下 


security 、jobs 和 economy 的 分 散 度 ; 


> dispersion plot(sentencesS$speech， 


rm.vars = sentencess$year, 
c("security", "jobs", "economy"), 
color = "black", bg.color = "white") 


上 述 命令 输出 如 下 页 图 。 
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这 个 图 非常 有 意思 , 因为 你 可 以 形象 地 表示 2010 年 的 演讲 有 多 长 。2010 年 演讲 的 前 半 部 分 特 
别 强调 工作 机 会 ， 而 在 2016 年 ,演讲 的 前 半 部 分 似乎 更 注重 对 整体 经 济 的 论述 。 毫 无 疑问 ,是 关 
于 奥巴马 自己 采取 了 多 少 措施 将 经 济 从 崩 演 的 边缘 挽救 回来 的 。2010 年 , 国家 安全 问题 直到 演讲 
的 后 半 部 分 才 提 到 ， 而 在 最 后 的 演讲 中 ,安全 问题 贯穿 始终 。 这 样 你 就 可 以 知道 并 理解 文本 分 析 
如 何 揭示 深刻 的 知识 ， 包 括 一 个 人 的 想法 和 他 的 优先 级 ， 而 且 明 白 如 何 与 其 沟通 。 


这 样 就 完成 了 对 两 篇 演讲 的 分 析 。 必 须 承 认 ， 这些 演讲 我 一 次 也 没有 听 过 。 实 际 上 ， 从 里 根 
总 统 开始 , 除了 2002 年 , 我 没有 收看 过 任何 一 次 国情 咨文 。 这 项 分 析 使 我 知道 , 随 着 时 间 的 推移 ， 
国会 演讲 的 主题 和 形式 如 何 改变 ,以 适应 政治 需要 。 同 时 由 于 演讲 的 正式 性 ， 总 体 风格 和 句法 结 
构 是 保持 一 致 的 。 请 记 住 ,本 童 的 代码 适合 于 儿 十 种 (如果 没 有 几 百 种 的 话 ) 文档 或 言论 的 文本 
挖掘 ， 而 且 文 档 可 以 有 多 个 作者 ， 例 如 电影 剧本 、 法 律 程序 、 采 访 记录 、 社 交 媒 体 等 。 的 确 , 文 
本 挖掘 可 以 将 现存 的 定性 混乱 改变 为 定量 秩序 。 













































































13.5 小结 


本 章 研究 了 如 何 使 用 文本 挖掘 方法 来 处 理 大 规模 文本 数据 。 我 们 介绍 了 文本 挖掘 的 实用 框架 ， 
包括 数据 准备 、 词 频 分 析 和 可 视 化 ,以 及 通过 tm 包 使 用 LDA 建 立 主题 模型 。 框 架 还 包含 其 他 定量 
分 析 技 术 , 例 如 极 性 分 析 和 正式 度 , 这 可 以 让 我 们 更 深入 地 理解 文本 中 的 词汇 ,也 可 以 说 是 风格 。 
通过 qdap 包 可 以 实现 这 些 分 析 。 我 们 应 用 这 个 框架 分 析 了 奥巴马 总 统 的 7 年 国会 演讲 , 结果 发 现 ， 
尽管 这 些 演讲 基本 上 都 是 一 个 风格 , 但 因为 政治 形势 的 变化 , 其 关键 信息 也 随 着 时 间 的 推移 而 发 
生 了 变化 。 虽 然 很 难 介 绍 所 有 文本 挖掘 技术 ， 但 本 章 内 容 对 于 我 们 将 要 面临 的 多 数 问题 都 适用 。 
下 一 章 将 从 建 模 工 作 中 解脱 出 来 ， 重 点 介绍 如 何在 云 上 运行 R。 这 可 以 扩展 你 的 机 器 学 习 能 
满足 你 解决 任何 问题 的 需要 。 





















































在 云 上 使 用 R 语 言 








“如 果 有 人 问 我 什么 是 云 计 算 ， 那 我 一 时 半 会 儿 还 真 说 不 清楚 。 我 会 告诉 他 们 ， 简 
单 地 说 ， 云 计算 就 是 一 种 运行 业务 的 更 好 方式 。” 


一 一 马克 贝 尼 奥 夫 ， 云 计算 软件 服务 提供 商 赛 富 时 (Salesforce.com ) CEO 


因为 我 不 是 一 个 想 从 云 计算 中 获取 利润 的 公司 CEO, 所 以 还 是 给 云 计算 下 个 定义 。 我 很 喜欢 
微软 公司 的 这 个 定义 (参见 https://azure.microsoft.com/en-us/overview/what-is-cloud-computing ): 





简单 地 说 ， 云 计算 就 是 通过 互联 网 ( 云 ) 提供 的 计算 服务 一 一 服务 器 、 存 储 、 数 据 
库 、 网 络 、 软 件 、 分 析 ， 等 等 。 提供 这 些 计 算 服 务 的 公司 称 为 云 供应 商 ， 通常 根据 使 用 
情况 对 云 计算 服务 进行 收费 ， 这 和 你 为 家 里 的 水 电 付 费 非常 相似 。 


如 果 你 还 没有 使 用 云 服 务 进行 机 器 学 习 , 那么 我 可 以 保证 在 不 远 的 将 来 ,你 会 使 用 的 。 我 知 
道 有 些 人 会 担心 数据 失控 、 安 全 问题 等 , 一 个 创业 公司 的 CEO 就 问 过 我 这 样 的 问题 。 我 会 反问 有 
这 种 担心 的 人 :“ 如 果 你 们 认为 保存 在 笔记 本 电脑 上 的 数据 是 安全 的 , 那么 会 通过 Wi-Fi 来 访问 这 
些 数 据 吗 ? ”如 果 答 案 是 “会 "， 那 么 这 就 是 在 使 用 云 服务 ， 与 上 面 所 说 的 云 服 务 的 区 别 只 是 存 
储 硬件 的 环境 不 一 样 。 


就 是 这 样 。 你 想 把 办 公 室 装 满 服务 器 ， 和 弄 得 像 个 地 牢 一 样 ? 还 是 想 让 别人 通过 他 们 安全 的 、 
有 郊 余 备份 的 和 遍布 全 球 的 基础 设施 来 解决 问题 呢 ? 


基于 云 计算 使 用 R 语 言 可 以 在 多 个 工作 地 点 之 间 达 成 无 缝 连接 ,也 可 以 获得 极 大 的 计算 能 
而 且 可 以 按照 需要 快速 向 上 或 向 下 扩展 。 云 计算 可 以 节省 大 量 成 本 。 


有 很 多 种 方式 可 以 在 云 上 使 用 R， 我 要 使 用 的 是 亚马逊 的 云 服 务 平台 AWS ( Amazon Web 
Services ) 和 他 们 的 弹性 计算 云 (Elastic Compute Cloud，EC2 )。 我 使 用 亚马逊 云 服 务 进行 说 明 是 
因为 ， 它 是 我 使 用 的 第 一 个 云 服务 ， 而 且 我 已 经 非常 熟练 了 。 这 并 不 是 说 我 认为 它 比 其 他 产品 要 
好 。 我 现在 不 这 样 认为 ， 将 来 也 不 会 ,除非 杰 夫 … 贝 佐 斯 (亚马逊 集团 董事 会 主席 兼 CEO ) 选择 
我 去 执行 一 次 载 人 航天 任务 ， 我 的 态度 才 会 改变 。 
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无 论 如 何 , 本 章 的 目的 是 带领 并 教会 你 在 不 写 一 行 Linux 代 码 的 情况 下 , 快速 地 在 云 上 使 用 R 
语言 和 Rstudio。 为 了 最 大 限度 地 利用 AWS 的 能 力 和 它 花样 繁多 的 在 线 工具 ， 你 可 以 学 习 Linux 代 
人 码 ， 并 通过 SSH ( Secure Shell， 安 全 外 壳 协 议 ) 来 使 用 。 对 于 本 章 的 内 容 ， 我 们 要 创建 并 启动 一 
个 名 为 实例 (instance ) 的 虚拟 机 ， 然 后 通过 网 页 浏览 器 登录 Rstudio， 并 使 用 其 中 的 一 些 功 能 。 
网 上 有 很 多 这 样 的 教程 , 但 我 的 目标 是 使 你 以 最 简单 和 最 快速 的 方式 开始 , 并 且 今 天 就 可 以 在 云 
上 使 用 R。 





















































14.1 创建 AWS 账户 
第 一 件 事 就 是 要 注册 一 个 AWS 账 户 : 








https://aws.amzon.com/ 


这 是 这 个 练习 的 唯一 前 提 条 件 。 注 册 过 程 需要 一 个 信用 卡 , 但 是 你 在 本 章 中 要 做 的 练习 不 会 
花 一 分 钱 ， 因 为 我 们 使 用 的 是 免费 实例 。 然 后 你 就 可 以 快速 启动 一 个 新 的 实例 ,这 个 实例 具有 你 
需要 的 强大 计算 能 力 , 还 可 以 在 完成 练习 后 停止 或 结束 。 当 你 创建 账户 并 登录 时 ,可 以 选择 是 否 
建立 安全 组 。 创建 实例 时 , 我 会 通过 建立 一 个 新 的 安全 组 来 说 明 它 的 用 处 。 安 全 组 可 以 让 你 控制 
谁 可 以 访问 实例 ， 以 及 如 何 访 问 实例 。 还 有 ， 现 在 先 不 要 创建 密 铀 对， 除非 你 特别 需要 ， 否 则 可 
以 在 以 后 创建 。 


这 些 步骤 都 完成 之 后 ， 登 录 进 入 你 的 AWS 控 制 台 ,如 下 所 示 。 



































AWS services 


> Allservices 


Build a solution 


Get started with simple wizards and automated workflows. 


晤 Launch a virtual machine © Build a web app Deploy a serverless 
With EC2 With Elastic Beanstalk $7 Microsevice 


~1 minute ~6 minutes With Lambda, API Gateway 
~2 minutes 
呈 Host a static website Create a backend for your OD Register a domain 
With S3, CloudFront Route 53 Te 人 wa] with Route 53 
~5 minutes With Mobile Hub ~3 minutes 
~5 minutes 











点 击 智能 超 链接 Launch a virtual machine 即 可 创建 并 启动 一 个 虚拟 机 。 
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14.1.1 启动 虚拟 机 
启动 虚拟 机 的 超 链接 会 带 你 进入 如 下 页 面 。 





Services v Resource Groups Yv 





Quick Launch an EC2 Instance 
Amazon EC2 provides virtual machines in the AWS cloud, known as EC2 instances. 
This quick launch wizard lets you create an EC2 instance with AWS-recommended default 


configuration. If you need more options or fine-grained control over instance parameters, please 
use the advanced Launch Instance wizard 


Get Started 


不 要 点 击 Get Started 按 钮 ， 而 是 点 击 advanced EC2 Launch Instance Wizard， 如 下 所 示 。 

















Services v Resource Groups v DT Oregon v Support v 
人 Choose AMI 2.ChooseinstanceType 3.Conigureinstance 。 4.Add storage 5.AddTags 6.ConfgureSecuriy Group 7.Reviev 
Step 1: Choose an Amazon Machine Image (AMI) Cancel and Exit 


An AMIis a template that contains the software configuration (operating system, application server, and applications) required to launch your instance. You can select an AMI provided by AWS, our user 
community, or the AWS Marketplace; or you can select one of your own AMIs 


Quick Start 1to 31of31AMIs 


My AMIs Amazon Linux AMI 2016.09.1 (HVM), SSD Volume Type - ami-f173cc91 [ setect | 


Amazon Linux 。 The Amazon Linux AMI is an EBS-backed, AWS-supported image The default image includes AWS command line tools, Python, Ruby, Per 


64-bit 
oi nem A and Java The repositories include Docker PHP, MySQL PostgreSQL, and other packages 
Community AMIs Root devce ype ebs 。 Virtualeaton ype hvm 
® Red Hat Enterprise Linux 7.3 (HVM), SSD Volume Type - ami-6f68cfof [setect | 
Free tier only 人 
Red Hat Red Hat Enterprise Linux version 7.3 (HVM), EBS General Purpose (SSD) Volume Type Pn 
Root device ype: ebs Vetualzation ype hvm 
9 SUSE Linux Enterprise Server 12 SP2 (HVM), SSD Volume Type - ami-e4a30084 [select | 
SUSE Linux SUSE Linux Enterprise Server 12 Service Pack 2 (HVM), EBS General Purpose (SSD) Volume Type. Public Cloud, Advanced Systems 64-bit 


Management. Web and Scripting, and Legacy modules enabled 














如 果 你 已 经 有 了 一 些 经 验 ， 就 可 以 使 用 不 同 的 亚马逊 机 器 镜像 (Amazon Machine Image， 
AMI), 并 可 以 定制 在 AWS 上 使 用 R 的 方式 。 但 本 章 目 标 是 快速 而 又 简单 地 在 云 上 使 用 R， 考 虑 到 
这 一 点 ，AWS 用 户 建立 了 一 些 社 区 AMI， 其 中 已 经 包含 了 R 和 Rstudio。 所 以 ， 可 以 在 Quick Start 
之 后 点 击 Community AMIs， 这 时 会 弹出 一 个 搜索 框 ， 我 建议 先 使 用 由 Louis Aslett 维 护 的 AMI: 
http://www.louisaslett.com/RStudio AMI/。 搜 索 rstudio aslett 可 以 找到 这 个 AMI, 会 显示 下 面 的 网 页 ， 
点 击 Select 按 钮 ， 如 下 所 示 。 














Step 1: Choose an Amazon Machine Image (AMI) Cancel and Exit 
My AMIs 
4 results for "rstudio aslett" on AWS Marketplace 


Yiwsmarketplace 
bs Partner software pre-configured to run on AWS 


AWS Marketplace 


Community AMIs 
ty © RStudio-0.99.491_R-3.2.3_ubuntu-14.04-LTS-64bit - ami-1d7f657c [ setect | 
Ready to run RStudio server for statistical computation (www.louisaslett.com). Connect to instance public DNS in web brower (standard port 


64-bit 
80) usemame rstudio and password rstudio 








Y Operating system 
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这 样 就 到 了 第 二 步 一 一 选择 实例 类 型 。 我 选择 的 是 t2.micro 免 费 层 实例 。 





7 Review 





二 Choose mstance ype 3Conigureinstance 4AddSorage SAdTiags 6 Conigure Securntye 


Step 2: Choose an Instance Type 
Amazon EC2 provides a wide selection of instance types optimized to 
and networking capacity, and give you the fexibity to choose the appropri 





iferent use cases. Instances are virtual servers that can run applications. They have varying combinations of CPU. memory, storage 
Mix of resources for your applications. Learn more about instance types and how they can meet your computing needs 





Fiter by: Allinstancetypes ~ Current generation ~v Show/Hide Columns 


Currently selected: t2 micro (Variable ECUs, 1 vCPUS, 2.5 GHz Intel Xeon Famiy, 1 GiB memory, EBS only) 





IPv 
Femily ~- Tpe ~ wpUs DD -| MemorylGIB) ~ instence Storege (GB) (~ ie ei Available -Network Performence (1) -| Support -~ 
i 
General purpose tnano 1 05 EBS only = Low to Moderate Yes 
tmicro 

General purpose 3 

purpo: ey 1 EBS only Low to Moderate Yes 
General purpose tsmal 1 2 EBS only Low to Moderate Yes 
General purpose .medium 2 4 EBS only = Low to Moderate Yes 
General purpose large 2 8 EBS only = Low to Moderale Yes - 


conc [ER hext Contoure nstanee Detats 


如 果 已 经 选择 了 需要 的 实例 类 型 , 则 可 以 点 击 Review and Launch。 因为 这 是 一 个 已 有 的 AMI， 
所 以 可 以 跳 过 第 七 步 一 Review 标 签 页 ,此 时 可 以 启动 实例 ,但 我 们 点 击 一 下 第 六 步 一 一 Configur 
Security Group。 


























1.Choose AMI 2.ChooseInstance Type 3.ConfigureInstance 4AddStorage 5.AddTags 6.Configure Security Group 7.Review 





Step 7: Review Instance Launch 


Please review your instance launch details. You can go back to edit changes for each section. Click Launch to assign a key pair to your instance and complete the launch process. 





A Improve yourinstances' security. Your security group, launch-wizard-2, is open to the world 
Your instances may be accessible from any IP address. We recommend that you update your security group rules to allow access from known IP addresses only. 
You can also open additional ports in your security group to facilitate access to the application or service you're running, e.g., HTTP (80) for web servers. Edit security groups 





Y AMI Details 


RStudio-0.99.491_R-3.2.3_ubuntu-14.04-LTS-64bit - ami-1d7f657c 
Ready to run RStudio server for statistical computation (ww louisaslett. com) Connect to instance public DNS in web brower (standard port 80), usemame rstudio and password rstudio 


Root Device Type: ebs .Virtualzation type: hvm 

















在 启动 过 程 的 这 一 步 , 你 可 以 建立 一 个 安全 组 , 也 可 以 使 用 一 个 现 有 的 。 下 面 是 创建 新 安全 
组 的 示例 。 





1 .Choose AMI 2 ChooselnstanceType 3.Configureinstance ‘4AddStorage 5AddTags 6.Configure Security Group 7.Review 


Step 6: Configure Security Group 

A security group is a set of firewall rules that control the traffic for your instance. On this page, you can add rules to allow specific traffic to reach your instance. For example, if you want to set up a web server ~ 
and allow Internet traffic to reach your instance, add rules that allow unrestricted access to the HTTP and HTTPS ports. You can create a new security group or select from an existing one below. Learn more 
about Amazon EC2 security groups. 


Assign a security group: ®Create a new security group 


Select an existing security group 


Security group name: [fightingsioux 
Description: linstance for 2nd edition 
Type 人 Protocol 1 Port Range (1 Source (1 
Al traffic 7 A ] [0-65535 MP "网 244327682 @ 
Custom TCP Rule T rcp 8787 [Anywhere » | |0.0.0.0/0. -0 @ 


Add Rule 


Cancel Previous BIELLIETE 


完成 该 步骤 后 (可 以 完全 不 做 修改 )， 点 击 Review and Launch。 这 会 带 你 回 到 第 七 步 ， 此 时 
可 以 点 击 Launch， 来 到 选择 新 密 钥 对 或 现 有 密 钥 对 的 页 面 。 
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Select an existing key pair or create a new key pair X 


A key pair consists of a public key that AWS stores, and a private key file that you store. Together 
they allow you to connect to your instance securely For Windows AMIs, the private key flle ls requlred 
to obtain the password used to log into your instance. For Linux AMIs, the private key fle allows you to 
securely SSH into your instance. 


Note: The selected key pair will be added to the set of keys authorized for this instance. Learn more 


about removing existing key pairs from a public AMI 





Create a new key pair 
Key pair name 
] 


Download Key Pair 





You have to download the private key file (* pem file) before you can continue 
Store it in a secure and accessible location. You will not be able to download the 
flle again after t's created 








cancel 时 


完成 之 后 ， 点 击 Launch Instance， 回 到 AWS 控 制 台 。 








14.1.2 ”启动 Rstudio 
启动 实例 之 后 ， 回 到 AWS 控 制 台 并 选择 该 实例 时 ， 你 会 看 到 如 下 页 面 。 





I Connect Actionsv 
上 |] 


Q by keyword @ 
Name ~ Instance ID ~ Instance Type ~ Availability Zone ~ Instance State - StatusChecks ~ Alarm Status 

国 i02f4e9d7812b137f5 。 t2 micro us-west-2c @ running EB Initializing None ' 
edition2 i-0e6d1289cf24dd343 {2.micro Us-west-2a @ stopped None \ 





Instance: | i-02f4e9d7812b13715 Public DNS: ec2-35-162-137-32.us-west-2.compute.amazonaws.com 











注意 选中 实例 的 Public DNS。 要 在 你 的 网 页 浏览 咒 中 启动 Rstudio， 有 这 个 就 足够 了 。 要 在 浏 


/ 世 \ 


览 器 中 启动 Rstudio， 需 要 先 来 到 Rstudio 的 登录 页 面 ， 用 户 名 和 密码 都 是 rstudio。 





Qstudio 


Sign in to RStudio 


Username: 
rstudio 


Password: 





Stay signed in 


ET 
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就 是 这 样 ! 你 已 经 在 一 个 虚拟 机 上 运行 Rstudio 了 。 它 看 上 去 应 该 如 下 所 示 。 





File Edit code View Plots Session Build Debug Tools Help rstudio | Sign Out 


~ 口 


Size Modified 
0B Jan 12, 2016, 7:00 AM 





四 welcomeR 1.8KB Jan 12. 2016. 6:21 AM 


Natural language support but running in an English locale 


Rs 9 collgborative project with nany contributors. 
Type ‘Gontributors(). for more information an 
tation()” No cite R or R packages I publication: 





Yee “denat), .fon (sone denne shelp() for oiine ke] ot 
‘help. start()* for an HTML browser interface to help 
Type "9q() to quit R. 


在 左上 角 的 Source Panel 窗 格 中 ， 有 关于 如 何 修改 密码 和 连接 到 Dropbox 的 指示 。 


为 了 演示 如 何 从 网 络 上 加 载 数据 , 我 要 从 github 上 加 载 一 个 前 面 章节 中 使 用 过 的 .csv 文 件 。 试 
试 climate.csv 好 吗 ? 首先 要 安装 和 加 载 RCurl 包 : 








> install.packages ("RCurl1") 


> library (RCur1) 
然后 ， 需 要 获得 GitHub 上 的 数据 连接 : 


> url <- 
"https://raw.githubusercontent .com/datameister66/data/master/climate.csv" 


然后 ， 将 数据 读 取 到 Rstudio 中 : 
> climate <-read.csv(text = getURL(ur]l)) 
确定 读 取 数据 的 结果 : 


> head(climate) 

Year CO2 Temp 
1919 806 -0.272 
1920 932 -0.241 
1921 803 -0.187 
1922 845 -0.301 
1923 970 -0.272 
1924 963 -0.292 


就 是 这 样 。 现 在 ,你 已 经 成 为 一 个 基于 云 计算 的 机 器 学 习 勇 士 了 ,你 几乎 可 以 像 使 用 自己 的 
计算 机 一 样 在 虚拟 机 上 进行 各 种 操作 。 


OU 忆 ww 





人 请 注意 ， 如 果 你 完成 操作 并 退出 Rstudio， 请 一 定 回 到 控制 台 停 止 实例 
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14.2 ”小结 


在 本 书 最 后 一 章 中 ,我们 介绍 了 如 何 快速 而 又 简单 地 在 云 上 运行 R 语 言 和 Rstudio。 在 这 个 练 
习 中 ， 我 们 通过 使 用 AWS， 循 序 渐进 地 介绍 了 如 何在 云 上 创建 虚拟 机 (实例 )、 配 置 虚 拟 机 、 启 
动 虚拟 机 ， 以 及 在 浏览 器 中 运行 Rstudio。 最 后 ， 通 过 从 GitHub 上 读 取 climate.csv 文 件 ， 说 明了 从 
网 络 上 加 载 数据 有 和 多么 容易 。 通 过 本 章 对 云 计算 的 简单 介绍 , 你 可 以 在 任何 有 互联 网 连接 的 地 方 
开展 工作 ,并且 可 以 对 实例 进行 快速 扩展 和 收缩 ， 以 满足 你 的 需求 。 本 书 的 主要 章节 到 此 结束 。 
我 希望 你 能 喜欢 本 书 内 容 ， 并 能 将 书 中 介绍 的 方法 和 你 逐渐 学 会 的 其 他 方法 在 实际 中 加 以 应 用 。 
谢谢 ! 


















































“我 曾经 一 下 子 废 掉 了 1000 行 代码 ， 那 是 我 最 有 成 效 的 一 天 。” 
本 部 分 介绍 R 语 言 的 基本 编程 语法 和 常用 功能 。 希望 可 以 带 你 进入 R 语 言 的 世界 , 激发 你 对 R 
语言 的 学 习 兴 趣 。 我 们 的 目标 如 下 : 

口 安装 R 语 言 与 RStudio 

口 建立 并 使 用 向 量 
口 建立 数据 框 与 矩阵 
口 了 解数 学 与 统计 函数 

口 生成 简单 的 统计 图 

口 介绍 数据 处 理 扩展 包 dplyr 
口 安装 与 加 载 R 程 序 包 





























附录 中 的 每 个 示例 都 在 前 面 的 章节 中 介绍 过 。 如 果 你 没有 使 用 过 R， 那 么 这 是 一 个 非常 好 的 
开始 ， 本 部 分 可 以 使 你 更 好 地 理解 前 面 各 章 内 容 。 








本 节 需 要 完成 两 个 任务 : 第 一 ， 安 装 最 新 版 本 的 R 语 言 ; 第 二 ， 安 装 RStudio ， 即 R 语 言 的 集 
成 开发 环境 ( Integrated Development Environment，IDE )。 





首先 查看 R 的 主页 ， 地 址 为 https://www.r-project.org/， 类 似 下 页 屏幕 截图 。 
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G 


Reporting Bugs 
Development Site 
Conferences 
Search 


R Foundation 


Foundation 
Board 
Members 
Donors 
Donate 





The R Project for Statistical Computing 


etting Started 


[Home] 

Ris a free software environment for statistical computing and graphics. It compiles and runs on a wide 
Download variety of UNIX platforms, Windows and MacOS. To download R, please choose your preferred CRAN 
CR mirror 

Ifyou have questions about R like how to download and install the software, or what the license terms 
R Project are, please read our answers to frequently asked questions before you send an email 
About R 
Logo News 
Contributors 
Whats New? » R version 3.4.2 (Short Summer) has been released on Thursday 2017-09-28. 


The R Journal Volume 9/1 is available 

R version 3.3.3 (Another Canoe) has been released on Monday 2017-03-06, 

The R Journal Volume 8/2 is available. 

useR! 2017 (July 4 - 7 in Brussels) has opened registration and more at http://user2017.brussels/ 
Tomas Kalibera has joined the R core team 


The R Foundation welcomes five new ordinary members: Jennifer Bryan, Dianne Cook, Julie Josse, 
Tomas Kalibera, and Balasubramanian Narasimhan. 


The R Journal Volume 8/1 is available 


The useR! 2017 conference will take place in Brussels, July 4 - 7, 2017. 











可 以 看 到 download R 链 接 , 在 News 部 分 可 以 看 到 R 的 最 新 版 本 为 3.4.2。 现在 , 点 击 一 个 链接 ， 
Download 下 面 的 CRAN 或 者 Getting Started 下 面 的 download R 都 可 以 ， 然 后 进入 如 下 页 面 ， 即 


CRAN 镜 像 。 





0-Cloud 
hu ; 
http.cloud r-proiect.org/ 
Algeria 
htps-/cran ustbhb dz 


Argentina 
kaglpu lu ar' CRAN, 
Australia 
https-//cran csiro au 
htip./cran.csiro.au 
https- cran ms unpimelb cdu au 
htip, cran ms ummelb cdu au 
https. cran curun edu au 


Austria 
https.cran nuacat 
http sran wuacat’ 


Belgium 











CRAN Mirrors 


The Comprehensive R Archive Network is available at the following URLs. please choose a location close to you, Some statistics on the status of the mirrors can be found here: main page, windows release. 
indows old release. 


Automatic redirection to servers worldwide. currently sponsored by Rstudio 
Automatic redirection to servers worldwide. currently sponsored by Rstudio 


University of Science and Technology Houari Boumediene 
University of Science and Technology Houan Boumediene 


Universidad Nacional de La Plata 


CSIRO 

CSIRO 

University of Melboume 
University of Melboume 

Curtin University of Technology 


Wirtschaftsuniversitat Wien 
Wirtschaftsuniversitat Wien 


K ULeuven Association 
Ghent University Library 
Ghent University Library 











下 面 的 链接 是 按照 
下 滚动 页 面 ， 可 以 发 现 有 很 多 可 用 





家 和 字母 顺序 排列 的 ， 可 以 将 你 带 入 下 载 页 面 。 





的 链接 。 





为 我 在 美 








USA 


http:Jcran cnrberkeleyedu/ 
http://cran stat ucla edu 


http-//mirror las.iastate eduy CRAN! 
https: /ftp.ussg iu.edu/CRAN 
http://ftp.usss iu.edyCRAN 
https./rweb .crmda ku educrany 

Ww: Ledu 
https-//cran mtu edu 


http://cran case .edu 
hi iis stat wright. edu/CRAN, 





hu rorlas iastate edu/CRAN 


University of California. Berkeley CA 

University of California, Berkeley, CA 

University of California, Los Angeles. CA 

Iowa State University. Ames. IA 

Jowa State University. Ames, IA 

Indiana University 

Indiana University 

University of Kansas. Lawrence. KS 

University of Kansas. Lawrence. KS 

Michigan Technological University, Houghton, MI 
Michigan Technological University. Houghton. MI 
Washington University. St. Louis. MO 

Duke University, Durham. NC 

Case Western Reserve University, Cleveland, OH 
Wright State University. Dayton. OH 








党 所 以 向 
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如 果 你 找到 了 和 你 所 在 地 点 相似 的 链接 ， 请 点 击 ， 然 后 会 看 到 类 似 下 图 的 页 面 。 





The Comprehensive R Archive Network 








Download and Install R 


。 Download R for Linux 
。 Download R for (Mac) OSX 


. WW Windows 








above. 


现在 ， 点 击 并 选择 你 的 操作 系统 。 


我 们 现在 是 首次 安装 R， 所 以 点 击 install R for the first time， 然 
安装 程序 。 





recompiled binary distributions of the base system and contributed packages. Windows and Mac users most likely want one of 
ese Versions of 及 - 


1s part of many Linux distributions. you should check with your Linux package management system in addition to the link 








后 来 到 如 下 页 面 ， 开 始 下 载 





R-3.3.2 for Windows (32/64 bit) 


Download R 3.3.2 for Windows (62 megabytes. 32/64 ba 


Installation and other instructions 
Mew fsaturss in this version 


fingerprint. You will need a version of md$sum for windows: both graphical and command line versions are available 


Frequently asked questions 














Please see the R FAQ for general information about R and the R Windows FAQ for Windows-specific information. 


If you want to double-check that the package you have downloaded exactly matches the package distributed by R. you can compare the md;5sum of the exe to the true 











现在 ， 你 就 可 以 像 安装 其 他 程序 一 样 安装 R 了 。 安 装 完 成 之 后 运行 R， 你 会 看 到 基础 的 图 形 


用 户 界 面 。 





(RR RGui (64-bit) 
File Edit View Misc Packages Windows Help 
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现在 ,你 可 以 运行 本 书 中 的 所 有 代码 了 。 但 是 ， 我 们 强烈 推荐 在 RStudio 的 IDE 环 境 下 使 用 R 
(有 免费 版 本 )。 可 以 通过 下 面 的 链接 下 载 免 费 的 RStudio: 





https:/Wwww.rstudio.com/products/RStudio/ 
在 这 个 页 面 , 你 可 以 找到 免费 版 本 和 商业 版 本 的 下 载 。 不 用 说 , 我 们 直 奔 免费 版 本 下 载 并 安 


装 。 程 序 安装 完毕 ， 第 一 次 打开 之 后 ， 你 可 以 看 到 如 下 界面 。 请 记 住 ， 如 果 加 载 的 程序 包 和 操作 
系统 不 同 ， 界 面 也 会 有 些 差别 。 
































了 | Enwwonment History 


Fies Plots Padages Help Viewer 












































请 注意 ， 左 边 是 带 有 命令 行 提示 符 的 控制 台 ， 这 和 前 面 的 图 是 一 样 的 。IDE 可 以 提高 用 户 体 
验 ， 比 如 你 可 以 管理 Environment 和 History (右上 ), 以 及 Files、Plots、Packages 和 Help ( 右 下 )。 


关于 RStudio 的 功能 有 很 详细 的 教程 ， 不 用 在 这 上 面 花费 过 多 精力 ， 直 接 查 看 一 些 重要 的 功 
能 。R 的 最 大 优点 之 一 就 是 ， 拥 有 数量 庞大 的 高 质量 软件 包 ， 可 以 进行 各 种 分 析 。 下 面 看 看 如 何 
使 用 IDE 加 载 一 个 软件 包 ， 比 如 abc 包 ,， 它 用 来 进行 近似 贝 叶 斯 计算 。 使 用 命令 行 提 示 符 ,输入 如 


下 命令 : 
























































> install.packages ("abc") 


命令 运行 之 后 ， 请 注意 右 下 角 的 窗 格 〈 请 确保 点 击 选中 Packages 标 签 页 ) 中 ，abc 包 和 它 的 
依赖 包 abc.data 一 起 安装 完成 。 现 在 ， 点 击 右上 角 History 标 签 页 ， 可 以 看 到 运行 过 的 加 载 软件 包 


的 命令 。 











附录 及 语言 基础 279 








Environment 。 History 


























一 口 
了 日 | 民 ToConsole | 称 psource Ol 
install.packages("abc") 
Files Plots Packages Help Viewer | 
Sl instal  @ Update @@ 
Name Description Version 
User Library 
abc Tools for Approximate Bayesian Computation (ABC 2.1 
abc.data Data Only: Tools for Approximate Bayesian Computation 1.0 





现在 , 点 击 To Console 按 钮 ， 这 个 命令 就 会 被 放 到 命令 行 提 示 符 前 面 。 点 击 To Source 按 钮 会 
看 到 一 个 新 区 域 被 打开 ， 供 你 组 织 项 目 脚本 。 





命令 install.packages () 从 历史 操作 进入 源 文件 。 如 果 你 测试 过 代码 ， 获 得 了 满意 的 效 
果 , 那么 可 以 把 代码 放 在 源 文件 中 。 你 可 以 将 其 保存 到 硬盘 , 或 者 用 邮件 发 送 给 别人 。 本 书 中 的 
每 章 代码 都 保存 在 一 个 源 文件 中 。 


2. 使 用 R 

















系统 一 切 就 绪 之 后 ， 我 们 开始 第 一 个 命令 。R 支 持 引 号 中 的 字符 串 和 简单 数字 。 下 面 使 用 一 
个 字符 串 命 令 和 一 个 数字 命令 ， 此 处 的 输出 和 输入 是 一 样 的 : 














> "Let's Go Sioux!" 
[1] "Let's Go Sioux!" 


> 15 
[1] 15 
了 R 还 可 以 用 作 计 算 器 : 


> ((22+5)/9)*2 
[1] 6 





R 的 亮点 始 于 能 够 建立 向 量 。 下 面 将 斐 波 那 契 数列 中 的 前 10 个 数字 组 成 一 个 向 量 ， 使 用 c () 
函数 ， 它 表示 将 几 个 值 组 合成 向 量 或 列表 (是 concatenate 的 首 字母 ， 表 示 连 接 ): 


05203722 


34) #Fibonacci sequence 
[1] 011235813 21 34 


请 注意 ， 在 上 面 的 代码 中 ， 我 添加 了 注释 Fibonacci sequence。 在 R 的 命令 行 中 ， 关 键 字 
# 后 面 的 内 容 是 不 执行 的 。 























下 面 建立 一 个 对 象 ， 使 之 包含 数列 中 的 这 些 数字 。 可 以 将 任何 向 量 或 列表 分 配给 一 个 对 象 。 
在 多 数 R 代 码 中 ， 你 会 看 到 赋值 符号 <-， 读 作 “ 赋 值 为 "。 建 立 一 个 对 象 x， 保 存 斐 波 那 契 数列 


>x <- c(0, 1, 1, 2, 3, 5, 8, 13, 21, 34) 
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如 果 想 看 看 对 象 xz 中 的 内 容 ， 在 命令 行 中 输入 x 即 可 : 


>x 
[1] O011235 8 13 21 34 


你 可 以 在 对 象 后 面 加 上 中 括号 来 选择 向 量 的 子 集 。 下 面 的 代码 可 以 让 你 得 到 序列 的 前 3 个 
观测 : 














> x[1:3] 

[1] 0 11 

可 以 在 中 括号 内 的 数字 前 加 上 一 个 负 号 ， 以 将 该 数字 对 应 的 观测 排除 在 外 : 
> x[-5:-6] 


[1] 0 1 1 2 813 21 34 


使 用 plot () 函数 ， 将 序列 可 视 化 : 
































> plot (x) 
述 命令 输出 如 下 。 
ID -| 
id 0 
口 .| 
CD 
ID J 
CN 
口 J [eo] 
CN 
x 
iD J 
> 0 
© 了 
© 
1D © 
o oo 
Ode oo Lo 
lL T T T T 
2 4 6 8 10 
Index 
使 用 main = ...、xlab = ... 和 ylab = ...， 可 以 轻松 地 为 统计 图 加 上 标题 和 坐标 轴 标 签 : 
> plot (x, main = "Fibonacci Sequence", xlab = "Order", ylab = "Value") 


述 命 令 输 出 如 下 页 图 。 


附录 及 语言 基础 281 








Fibonacci Sequence 





157 .20 一 25 002 95 


Value 
10 


5 
1 
0 








0 
i 
0° 





Order 

















R 中 有 很 多 函数 可 以 对 疝 量 进行 转换 。 下 面 建立 一 个 新 对 象 y， 表 示 x 的 平方 根 : 
>Yy <- sqrt(x) 
>Yy 


[1] 0.000000 1.000000 1.000000 1.414214 1.732051 2.236068 2.828427 
[8] 3.605551 4.582576 5.830952 


需要 重点 提示 ， 当 你 不 确定 函数 的 语法 时 ， 可 以 在 函数 前 面 加 一 个 ?， 这 样 即 可 调用 相关 的 
帮助 信息 。 试 一 下 吧 1 


> ?sqrt 


这 样 就 打开 了 这 个 函数 的 帮助 信息 。 建 立 x 和 y 之 后 ， 可 以 生成 一 张 散 点 图 : 











> plot (x, y) 

















述 命 令 输 出 如 下 。 
7 
0o 
i 天 
oo 
二 二 
© 
| o 
oo 
ped 
口 
oo 
一 J 0o 
Ep. 仿 
T T T T T T T T 
0 5 10 15 20 25 30 3 
X 
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下 面 建立 一 个 常数 对 象 ， 然 后 将 这 个 对 象 作为 标量 ， 乘 以 向 量 x， 建 立 一 个 新 的 向 量 x2 : 


>z <- 3 











> X2 <- XxX*2Zz 


> X2 
[1] 03369 15 24 39 63 102 


R 也 支持 逻辑 运算 。 例 如 ， 我 们 可 以 测试 一 个 值 是 否 小 于 男 一 个 值 : 


>5<56 
[1] TRUE 


>6<5 
[1] FALSE 


第 一 个 例子 中 ，R 返 回 TRUE， 第 二 个 例子 返回 FALSE。 如 果 你 想 知 道 一 个 值 是 否 等 于 另 一 个 
值 ， 那 么 应 该 使 用 两 个 等 号 (测试 两 个 值 是 否 相等 )。 请 注意 ， 一 个 等 号 表示 赋值 ， 不 能 测试 两 
个 值 是 和 否 相 等 。 在 下 面 的 例子 中 ， 我 们 可 以 知道 刚 建立 的 斐 波 那 契 数列 中 的 值 是 否 为 0: 











> xX == 
[1] TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 


输出 是 一 个 列表 ， 可 以 清楚 地 看 到 ，x 向 量 的 第 一 个 值 确实 为 0。 总 结 一 下 ，R 的 关系 运算 符 
包括 <=、<、==、>、>=、!=， 分 别 表示 小 于 等 于 、 小 于 、 等 于 、 大 于 、 大 于 等 于 、 不 等 于 。 


还 要 介绍 函数 rep () 和 seq() ， 这 两 个 函数 在 建立 向 量 时 非常 有 用 。 例 如 ，rep (5,3) 会 将 5 
重复 3 次 ， 对 字符 串 也 同样 有 效 : 


> rep("North Dakota Hockey, 2016 NCAA Division 1 Champions", times=3) 
[1] "North Dakota Hockey, 2016 NCAA Division 1 Champions" 
[2] "North Dakota Hockey, 2016 NCAA Division 1 Champions" 
[3] "North Dakota Hockey, 2016 NCAA Division 1 Champions" 


下 面 演 示 seq() 的 用 法 。 假 设想 建立 一 个 数列 ， 从 0 到 10， 每 次 增加 2， 代 码 如 下 所 示 : 


> seq(0, 10, by = 2) 
[1] 0246810 


3. 数据 框 与 矩阵 


下 面 建立 数据 框 ， 它 是 变量 ( 向量 ) 的 集合 。 先 建立 一 个 向 量 (1，2，3) ， 再 建立 一 个 向 量 
(1，1.5，2.0)。 然 后 使 用 rbina() 函数 ， 将 两 个 向 量 按 行 合并 : 
































>p <- seq(1:3) 


> 卫 
[1] 1 2 3 
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>q= seq(l, 2, by = 0.5) 


>q 
[1] 1.0 1.5 2.0 


>r <- rbind(p, q) 


> 

[,1] [,2] [,3] 
p 1 2.0 3 
aq -5 2 


结果 是 一 个 两 行列 表 ， 每 行 有 3 个 值 。 可 以 使 用 str () 函数 确定 数据 结构 ， 在 本 例 中 ， 可 以 
看 到 有 两 个 列表 ， 一 个 是 p， 一 个 是 da: 








> str(r) 
num [1:2, 1:3] 112 1.5 3 2 
- attr(*, "dimnames")=List of 2 
.$$ : chr [1:2] "p" "qa" 
..$ : NULL 


下 面 ， 使 用 cbina () 函数 将 两 个 向 量 按 列 合并 : 





> s <- cbind(p, q) 


一 
mh 
~ 
一 
ODPDGO 


Dpp 
ouon 


要 将 这 个 结果 转换 为 数据 框 ， 可 以 使 用 aata. frame () 图 数 。 转 换 完 成 之 后 , 检查 数据 结构 : 





> s <- data.frame(s) 


> str(s) 

'data.frame':3 obs. of 2 variables: 
$ p: num 123 

$sq: num 1 1.5 2 


这 样 就 建立 了 一 个 数据 框 s, 它 有 两 个 变量 , 每 个 变量 有 3 个 观测 。 可 以 使 用 names () 函数 修 
改变 量 名 称 : 


> names(s) <- c("column 1", "column 2") 


>s 

column 1 column 2 
1 1 1.0 
2 2 lB 
3 3 2.0 





尝试 使 用 as .matrix() 函数 ,将 数据 框 转换 为 矩阵 。 有 些 R 包 要 求 使 用 数据 框 进行 分 析 , 但 
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有 些 R 包 要 求 使 用 矩阵 。 可 以 根据 需要 在 数据 框 和 矩阵 之 间 随 意 转换 : 








> 七 <- as.matrix(s) 


» 

column 1 column 2 
[1,] 1 1.0 
[2,] 2 :5 
[3,] 3 2.0 


可 以 查看 矩阵 和 数据 框 中 的 值 。 例如 , 我 们 想 知 道 第 一 个 变量 中 第 一 个 观测 的 值 , 对 于 本 例 ， 
只 需 在 中 括号 中 指定 第 一 行 和 第 一 列 ， 如 下 所 示 : 
> t[1,1] 


column 1 


假如 想得到 第 二 个 变量 ( 列 ) 中 的 所 有 值 ， 只 要 将 行 的 位 置 留 空 即 可 。 但 别 忘 了 ,应 当 在 所 
需 的 列 前 面 加 一 个 逗号 : 


> 七 [,2] 
[1] 1.0 1.5 2.0 


与 之 相反 ,如果 只 想 看 看 前 两 行 中 的 值 ， 那 么 对 于 本 例 ， 只 需 使 用 一 个 冒号 : 














> t[1:2,] 

column 1 column 2 
[1,] 1 1.0 
[2,] 2 1.5 





假如 有 一 个 10 个 变量 和 100 个 观测 的 数据 框 或 矩阵 , 想 建立 一 个 子 集 ,包括 前 70 个 观测 和 第 1、 
3、7、8、9、10 个 变量 。 应 该 怎么 操作 呢 ? 

使 用 冒号 、 豆 号、 连接 函数 和 中 括号 即 可 轻松 完成 ， 如 下 所 示 : 

> new <- old[1:70, c(1,3,7:10)] 


你 会 注意 到 自己 可 以 轻松 操作 想 要 的 观测 和 变量 。 还 可 以 轻松 排除 变量 。 假设 只 想 排除 第 一 
个 变量 ,可 以 在 第 一 个 变量 前 面 加 个 负 号 ， 如 下 所 示 : 




















> new <- old[, -1] 
R 的 基本 数据 处 理 功能 非常 强大 ， 本 书 的 主体 章节 介绍 了 更 多 高 级 数据 处 理 技术 。 
4. 创建 摘要 统计 量 


本 节 介 绍 几 种 基本 的 统计 函数 ， 用 来 测量 数据 的 集中 趋势 和 分 散 性 ， 并 制作 简单 的 统计 图 。 
我 们 要 先 清楚 一 个 问题 : R 在 计算 中 如 何 处 理 缺 失 值 ”为 了 说 明 这 个 问题 ， 先 建立 一 个 带 有 缺失 
值 (R 语 言 用 Na 表示 缺失 值 ) 的 向 量 ， 然 后 使 用 sum( ) 函数 将 向 量 的 所 有 分 量 值 相 加 求 和 : 
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> aa <- cl(1， 


> sum(a) 
[1] NA 


在 SAS 中 ， 直 接 将 非 缺 失 值 相 加 。 但 和 SAS 的 处 理 方式 不 同 ，R 不 加 总 非 缺 失 值 ， 而 是 直 


2, 3, NA) 














接 返 回 NA， 表 示 至 少 有 一 个 缺失 值 。 可 以 建立 一 个 新 的 删除 了 缺失 值 的 向 量 ， 也 可 以 用 参数 


na.rm 


> sum(a, 


[1] 6 


TURI 


表示 在 计算 时 排除 缺失 值 : 





na.rm = TRUE) 











以 下 函数 可 以 测量 向 量 中 数值 的 集中 趋势 和 分 散 程 度 : 


> data <- c(4, 


3, 2, 5.5, 7.8, 


> mean(data) 
[1] 8.1625 


> median (data) 


[1] 6 


.65 


> sd(data) 
[1] 6.142112 


> max(data) 
[1] 20 


> min(data) 


[1] 2 


> range (data) 


[1] 


2 20 


> quantile(data) 


0% 


2.00 


25% 
3.75 


100% 
20.00 


50% 
6.65 


75% 
10.25 


9， 


可 以 使 用 summary () 函数 一 次 性 计算 均值 、 中 位 数 和 四 分 位 数 : 


> summary (data) 


Min. 
2.000 





1lst 


3. 


Median 
6.650 


Qu. 


750 8.162 





Mean 3rd Qu. 
10.250 


通过 统计 图 对 数据 进行 可 视 化 。 柱 状 


Max. 
20.000 








图 是 一 种 基本 的 统计 








图 ， 生 成 村 





E 状 图 后 ， 可 以 使 用 











abline () 函数 为 柱状 图 加 入 均值 和 中 位 数 。 因 为 缺 省 的 线 型 是 实 线 ， 所 以 使 用 参数 1ty=2 为 中 
位 数 指定 线 型 为 虚线 ， 以 区 别 于 均值 实 线 : 


> barplot (data) 


> abline(h 


> abline(h 





mean (data)) 


median(data), lty 


2) 
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上 述 命令 输出 如 下 。 


10 














| 四 
| 


有 多 种 函数 可 以 生成 不 同 的 数据 分 布 。 下面 看 一 下 生成 正 态 分 布 的 函数 rnorm() ,以 下 代码 
可 以 生成 均值 为 0、 标 准 差 为 1 的 100 个 数据 点 。 夯 出 这 些 数据 点 ， 然 后 做 出 柱状 图 。 此 外 ， 为 了 
能 够 复制 结果 ， 要 确保 使 用 同一 个 随机 数 种 子 ， 可 以 用 set . seed() 设 置 种 子 : 























> Set.seed(1) 
> norm = rnorm(100) 
绘制 这 100 个 数据 点 : 


> plot (norm) 














、 太 人 人 A 
上 述 命 令 输出 如 下 。 
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最 后 ， 使 用 hist (norm) 生成 柱状 图 : 





> hist (norm) 


附录 及 语言 基础 287 





上 述 命令 输出 如 下 。 





Histogram of norm 


15 





Frequency 
10 


















































5. 安装 与 加 载 R 程 序 包 

前 面 已 经 讨论 了 如 何 使 用 install () 函数 安装 R 的 程序 包 。 要 想 使 用 已 经 安装 好 的 程序 包 ， 
需要 先进 行 加 载 。 我 们 再 演示 一 下 , 首先 使 用 RStudio 进 行 安 装 ， 然 后 加 载 程序 包 。 找 到 Packages 
标签 页 并 点 击 ， 你 会 看 到 类 似 于 下 图 的 界面 。 

















Files Plots Packages Help Viewer ES 
Sl instal  @ update @| 
Name Description Version 
User Library 入 
口 abc Tools for Approximate Bayesian Computation (ABC) 2.1 
abc,data Data Only: Tools for Approximate Bayesian Computation 1.0 
(ABC) 
口 abind Combine Multidimensional Arrays 1.4-5 
口 acepack ACE and AVAS for Selecting Multiple Regression 14.]1 
Transformations 
口 a3 Data to accompany Applied Linear Regression 3rd edition 2.0.5 
口 aod Analysis of Overdispersed Data 13 
口 arm Data Analysis Using Regression and Multilevel/Hierarchical 1.9-3 
Models 
口 arules Mining Association Rules and Frequent ltemsets 1.5-0 
口 arvlesViz Visualizing Association Rules and Frequent Itemsets 1.2-0 
口 assertthat Easy pre and post assertions, 0.1 
口 backports Reimplementations of Functions Introduced Since R-3.0.0 1.0.5 
口 ”base64enc Tools for base64 encoding 0.1-3 
口 BBmisc Miscellaneous Helper Functions for B. Bischl 1.10 
口 ”bestglim Best Subset GLM 0.34 








现在 安装 xgboost 程 序 包 。 点 击 Install 图 标 ， 在 弹出 窗口 的 Packages 部 分 输入 程序 包 名 称 。 
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Install Packages 


Install from: 


Repository (CRAN, CRANextra) 


jxgboo 相 





? Configuring Repositories 


Packages (separate multiple with space or commal: 


RN 


,一 -~ 


一 人 


bd 





Install to Library: 


MInstall dependencies 





点 击 Install 按 钮 。 程 序 包 安装 完成 之 后 ， 弹 出 窗口 





使 用 1ibrary () 函数 : 
> library (xgboost) 
这 样 即 可 使 用 程序 包 中 的 函数 。 
6. 使 用 dplyr 进 行 数据 处 理 





C:/Users/Cory/Documents/R/win-library/3.3 [Default] 区 


Install | 


Cancel 





一 一 A 





就 会 返回 。 要 想 加 载 并 使 用 程序 包 ， 只 需 





在 过 去 的 几 年 里 ， 我 越 来 越 多 地 使 用 dplyr 包 ， 对 数据 进行 处 理 和 总 结 。 这 个 包 的 速度 比 R 基 








础 函数 快 ， 人 允许 将 多 个 函数 连接 使 用 。 一 旦 熟悉 了 它 的 语法 ， 就 会 越 来 越 感受 到 其 用 户 友 好 性 。 
根据 我 的 经 验 , 仅 要 很 少儿 个 函数 就 可 以 完成 所 需 的 大 部 分 数据 处 理工 作 。 按照 前 面 描述 的 方法 














安装 这 个 软件 包 ， 然 后 加 载 到 R 语 言 环境 : 





> library (dplyr) 











对 RR 基础 包 中 的 蕊 尾 花 数据 集 (iris ) 进行 探索 。 最 常用 的 两 个 函数 是 summerize() 和 
group_py ()。 在 以 下 代码 中 , 你 会 看 到 如 何 生 成 一 个 按 Species 分 组 的 包括 Sepal.Length 的 均值 的 


表格 。 均 值 保 存在 变量 average 中 。 


> summarize(group by(iris, Species), 


# A tibble: 3 X 2 
Species average 
<fctr> <dbl> 
1 setosa 5.006 
2 versicolor 5.936 
3 virginica 6.588 


有 多 种 摘要 函数 : n (计数 )、n_gistinct (唯一 


max (最 大 值 )、mean (均值 ) 和 meaian (中 位 数 )。 





average = mean(Sepal.Length)) 


计数 )、IER( 四 分 位 距 )、min (最 小 值 )、 
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dplyr 允 许 使 用 管道 操作 符 
而 避免 函数 彼此 之 间 的 包装 。 可 以 从 要 使 用 的 数据 框 开始 , 将 多 个 函数 连接 在 一 起 ,使 得 第 一 个 


函数 的 函数 值 或 参数 可 以 传递 给 下 一 个 函数 ,以 此 类 推 。 下面 的 例子 演示 了 如 何 使 用 管道 
得 到 和 前 面 同样 的 结果 : 








>% 帮 助 阅读 代码 。 通 过 管道 操作 符 ， 可 以 将 函数 连接 在 一 起 ， 从 








dq 





Bal 


作 符 











> iris %>% group by(Species) %>% summarize(average = 
mean(Sepal .Length)) 


# A tibble: 


Species 
<fctr> 
1 Setosa 
2 versicolor 
3 virginica 


3X2 


average 


<dbl> 
5.006 
5.936 
6.588 





gistinct () 函数 可 以 找 出 一 个 变量 中 的 唯一 值 。 看 看 变量 species 中 有 哪些 不 同 的 值 : 











> distinct(iris, Species) 


Species 
1 Setosa 
2 versicolor 
3 virginica 





> count (iris, Species) 


# A tibble: 


Species 
<fctr> 
1 Setosa 
2 versicolor 
3 virginica 


3X2 


使 用 count () 函数 ， 自 动 对 变量 进行 分 类 计数 : 


如 何 基 于 一 个 匹配 条 件 选取 特定 行 呢 ?可 以 用 filter() 函数 完成 这 个 任务 。 选 取 


Sepal.Width 大 于 3.5 的 行 ， 


放 入 新 数据 框 : 





[HH 


> df <- filter(iris, Sepal.Width > 3.5) 


看 一 下 这 个 数据 框 。 首 先 按照 Petal.Length 的 值 对 行进 行 降序 排列 : 


> df <- arrange(iris, 


desc(Petal .Dength) ) 


> head (df) 

Sepal.Length Sepal.Width Petal.Length Petal .width Species 
1 有 过 2.6 6.9 2.3 Virginica 
2 ry 3.8 6.7 2.2 virginica 
地 学 学 2.8 6.7 2.0 virginica 
4 了 :0 6.6 2.1 Virginica 
5 7.9 3.8 6.4 2.0 virginica 
6 3 2 be 1.8 virginica 


























下 面 选 出 感 兴趣 的 变量 ， 可 以 通过 select () 函数 完成 。 具 体 要 求 是 创建 两 个 数据 框 ， 一 个 


由 Sepal 开 头 的 列 组 成 ， 个 








Petal 开 头 的 列 和 Species 列 组 成 。 换 句 话 说， 由 不 以 Se 开头 的 列 
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组 成 。 在 select () 函数 中 指定 这 些 特 定 的 列 即 可 完成 上 述 任务 ， 也 可 以 换 种 方式 一 一 使 用 


starts_with 语 法 : 
> iris2 <- select(iris, starts with("Se")) 


> iris3 <- select(iris, -starts with("Se")) 


接着 合并 这 两 个 数据 框 。 还 记得 前 面 用 过 的 cbina() 吗 ? 你 还 可 以 使 用 dplyr 包 中 的 
bind_cols () 函数 ， 它 能 够 合并 两 个 数据 框 。 请 注意 ， 这 个 函数 和 cbina() 一 样 ， 是 按 位 置 匹 
配 行 的 -如 果 有 行 名 称 或 其 他 关键 字 , 比如 客户 ID 等 ,你 还 可 以 使 用 left_ join0) 和 innner_ join() 
这 样 的 函数 来 连接 数据 。 因 为 这 两 个 数据 框 中 的 行 数 是 相等 的 ， 所 以 这 个 函数 可 以 顺利 运行 : 

> theIris <- bind cols(iris2, iris3) 


head (theIris) 
head (iris) 


可 以 使 用 heaa () 函数 比较 theIris 和 iris 两 个 数据 框 的 前 6 行 ， 会 看 到 它们 完全 一 样 。 如 果 你 想 
像 之 前 使 用 rbina() 函数 那样 连接 数据 ， 可 以 使 用 bina_rows () 函数 。 如 果 想 知道 Sepal.Width 
中 有 多 少 个 唯一 值 ， 应 该 怎么 做 呢 ? 回忆 一 下 ， 数 据 集中 一 共有 150 个 观测 。 我 们 已 经 使 用 了 
qistinct() 和 count()。 下 面 这 段 代码 可 以 找 出 唯一 人 的 确切 数量 23， 















































> summarize(iris, n distinct(Sepal.Widath)) 
n distinct(Sepal .width) 
于 23 


几乎 所 有 大 数据 集中 都 存在 重复 观测 , 复杂 的 连接 操作 也 会 产生 重复 数据 。 使 用 dplyr 删 除 重 
复数 据 会 非常 简单 。 举 例 来 说 , 假设 想 创建 一 个 只 由 Sepal.Wid 了 h 中 的 唯一 值 组 成 的 数据 框 ， 并 在 
数据 框 中 保留 所 有 列 ， 那 么 可 以 使 用 下 面 的 代码 : 


> dedupe <- iris %>% distinct(Sepal.Width, .keep all = T) 























> str(dedupe) 
'data.frame': 23 obs. o 
$ Sepal.Length: num 5 
$ Sepal.Width : num 3 
$ Petal.Length: num 1. 
$ Petal.Width : num 0 
$ Species : Factor w/ 
bs eh 于 


. 
ODODPAOOPHmh 


.4 

.9 

1. 

0. 

osa", "versicolo 
请 注意 , 我 使 用 管道 操作 符 连 接 iris 数 据 集 和 qi stinct () 函数 , 并 在 di stinct () 函数 中 设 

定 .keep_all = T， 使 得 所 有 列 都 包括 在 新 的 数据 框 中 ， 否 则 新 数据 框 中 就 只 有 Sepal.Width 一 列 。 
如 果 你 想 在 R 中 进行 更 有 效率 的 数据 整理 ， 不 妨 试 试 dplyr。 
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7. 小 结 
这 个 附录 的 目的 是 使 R 初 学 者 掌握 R 语 言 的 一 些 基 础 知识 ， 以 便 能 看 懂 书 中 的 代码 。 这 部 分 
内 容 包括 如 何 安装 R 和 RStudio， 以 及 如 何 建立 对 象 、 向 量 和 和 珑 阵 。 在 这 之 后 ,我 们 介绍 了 一 些 数 
学 和 统计 函数 ,还 介绍 了 如 何 使 用 RStudio 安 装 和 加 载 R 程 序 包 。 最 后 介绍 了 dplyr 的 强大 功能 ,以 
有 效 处 理 和 总 结 数据 。 附 录 还 介绍 了 生成 统计 图 的 基本 方法 , 并 给 出 了 示范 。 这 份 附录 不 能 使 你 


成 为 R 专 家 ,但 可 以 使 你 更 好 地 理解 书 中 的 例子 。 

















技术 改变 世界 阅读 塑造 人 生 











EY eamiitu3 EEN 


A 
[的 Peter Fiach co 着 段 准 o 译 
a 





> i 
Machine Learning 
The Art and Science of Algorithms 
that Make Sense of Data 


DT 要 全 放 于 








Machine Learning 
in Action 


便 用 Python 阅 述 机 器 学 习 概念 
介绍 并 实现 机 器 学 习 的 主流 算法 








面向 日 常任 务 的 高 效 实战 内 容 
ns 

















令 Machine Learning 期 刊 主编 力作 
令 被 誉 为 内 容 最 全 面 的 机 器 学 习 教 材 


作者 : Peter Flach 
译 者 : 段 菲 


机 器 学 习 实 战 


使 用 Python 阐述 机 器 学 习 概 念 
令 介绍 并 实现 机 器 学 习 的 主流 算法 
令 面向 日 常任 务 的 高 效 实战 内 容 


作者 : Peter Harrington 
译 者 : 李 锐 李鹏 曲 亚 东 王 斌 








2 




















R 语言 实战 (第 2 版 ) 


令 学 懂 分 析 ， 玩 转 大 数据 

令 用 R 轻 松 实现 数据 挖掘 、 数 据 可 视 化 

令 从 实际 数据 分 析出 发 ， 全 面 掌 握 R 编 程 

人 新 增 预测 性 分 析 、 简 化 多 变量 数据 等 近 200 页 内 容 





作者 : Robert |. Kabacoff 
译 者 : 王 小 宁 间 技 已 ” 黄 俊文 














Amazon.com 读 者 评论 


“这 是 一 本 通俗 易 懂 的 机 器 学 习 和 数据 分 析 技巧 参考 书 。 书 中 的 概念 以 清晰 的 逻辑 形式 展现 ， 还 给 出 
了 大 量 常 被 同类 书 所 忽略 的 数据 准备 和 商业 案例 。 作 者 还 提供 了 大 量 实用 代码 ， 非 常 适合 自学 。 


“本 书 附 带 大 量 实用 代码 。 ee 必要 时 加 载 ， 也 能 修改 代码 以 从 中 学 习 。 说 实 
话 ， 我 认为 这 本 书 是 用 R 进 行 机 器 学 习 的 不 二 参考 。 每 章 都 涵盖 一 个 问题 ， 并 逐步 引入 新 技术 和 策略 进行 
解决 ， 然 后 通过 实施 以 巩固 所 学 知识 。 Li 及 其 使 用 方法 ， 从 而 成 为 
用 RR 语言 进行 机 器 学 习 和 高 级 统计 的 多 


本 书 使 用 R 语 言 讲述 机 器 学 习 高 级 技术 ， 带 领 读 者 深入 研究 统计 学 习 理论 和 监督 式 学 习 ， 理 解 如 何 设 
计 高 效 算法 ， 学 习 构 建 推荐 引擎 ， 运 用 多 类 分 类 和 深度 学 习 ， 等 等 。 通 过 探索 数据 挖掘 、 分 类 、 聚 类 、 回 
归 、 预 测 建 模 、 异 常 检 测 等 ， 本 书 帮助 读者 理解 这 些 概念 的 工作 原理 和 能 够 实现 的 操作 。 读 者 将 循序 渐进 
地 学 习 神 经 网 络 等 主题 ， 探 索 深度 学 习 等 内 容 。 通 过 不 同方 式 使 用 不 同 的 数据 集 ， 读 者 还 可 以 在 AWS 等 

云 平台 上 利用 R 亲 手 实践 机 器 学 习 。 


PUBILISIRIUNEC 


人 iTuring.cn 
Xt 办 线 : (010)51095186 转 600 


_ISBN 978-7-115-47778-1 ee 下 证 A 1 
汉人 计算 机 /机 器 学 习 定价: 6900 元 


人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


[PACKT] Wh 


看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


